Grundlagen der Statistik: Der Chi-Quadrat-Unabhängigkeitstest

Entscheiden sich junge Frauen häufiger als junge Männer für oder gegen bestimmte Studienfächer – wie ließe sich eine solche Frage mit Hilfe von Werkzeugen aus dem großen Methodenkoffer der Statistik beantworten? In dieser Ausgabe unseres Grundlagenkurses in Statistik und Stochastik hier im Wissenschafts-Thurm, lernen wir heute den sogenannten Chi-Quadrat-Unabhängigkeitstest kennen.

Beim Chi-Quadrat-Unabhängigkeitstest bzw. Chi-Quadrat-Test auf stochastische Unabhängigkeit (nachfolgend nur noch als Chi-Quadrat-Test bezeichnet), werden zwei nominal skalierte Merkmale (wie etwa das Geschlecht und die Entscheidung für oder gegen ein Studienfach) auf ihre sogenannte stochastische Unabhängigkeit geprüft. Hierzu werden die real beobachteten Häufigkeiten mit den zu erwartenden Häufigkeiten bei völliger Unabhängigkeit der Merkmale verglichen. Diese lassen sich berechnen, indem man die Randsummen in der Kontingenztabelle jeweils paarweise miteinander multipliziert und durch die Anzahl der Gesamtwerte dividiert.

Dazu ein Beispiel. Wir befragen 100 (fiktive) Personen nach ihrem Schulabschluss sowie nach dem Schulabschluss ihrer Eltern, um festzustellen, ob sich ein Zusammenhang finden lässt:

Beispiel Chi-Quadrat-Unabhängigkeitstest

Zur Berechnung der zu erwartenden Werte bei stochastischer Unabhängigkeit werden zunächst die Randsummen (Zeilen- und Spaltensummen) gebildet:

Beispiel Chi-Quadrat-Unabhängigkeitstest

Indem man nun die Randsummen multipliziert und durch die Gesamtsumme dividiert, erhält man den bei Unabhängigkeit zu erwartenden Wert, d.h. 55 * 54 / 100 = 29,7 anstelle von 43. Es ergeben sich die nachfolgend tabellierten zu erwartenden absoluten Häufigkeiten bei völliger stochastischer Unabhängigkeit der Variablen:

Beispiel Chi-Quadrat-Unabhängigkeitstest

So würden sich also die 100 Befragten – erwartbar – auf die Kategorien verteilen, gäbe es überhaupt keinen Zusammenhang zwischen dem eigenen Schulabschluss und dem Schulabschluss der Eltern. Dass die tatsächlichen Werte von diesen Werten stark abweichen, ist bereits ein Indikator dafür, dass es durchaus einen Zusammenhang geben könnte. Mit Hilfe des Chi-Quadrat-Tests wollen wir nun herausfinden, ob dies auch tatsächlich der Fall ist. Dazu werden die Differenzen zwischen erwartetem und tatsächlichem Wert quadriert (um zu verhindern, dass negative und positive Abweichungen sich gegenseitig neutralisieren) und durch die zu erwartenden Werte dividiert. Die Summe der Ergebnisse ergibt dann den entscheidenden Chi-Quadrat-Wert.

(43 – 29,7)² / 29,7 = 5,955
(11 – 24,3)² / 24,3 = 7,279
(12 – 25,3)² / 25,3 = 6,991
(34 – 20,7)² / 20,7 = 8,545

Es ergibt sich eine Summe und damit ein Chi-Quadrat-Wert von 28,77. Dieser ist nun einem Vergleichswert aus der tabellierten Chi-Quadrat-Verteilung gegenüberzustellen, wobei in diesem Fall ein Fehlerniveau von 5% (d.h. 1 – a = 0,950) bei einem Freiheitsgrad gewählt wurde.

Im Beispiel landet man bei dieser Vorgehensweise bei einem Vergleichswert von 3,84, der im Rahmen des Testverfahrens auch als „kritischer Wert“ bezeichnet wird. Wird dieser durch den errechneten Wert überschritten, gilt die Nullhypothese des Tests, nach der die beiden Variablen „eigener Schulabschluss“ und „Schulabschluss der Eltern“ als voneinander völlig unabhängig einzustufen sind, als abgelehnt. Da dies hier der Fall ist, lautet der Schluss, dass – statistisch betrachtet – ein signifikanter Zusammenhang zwischen den Variablen besteht.

Beispielrechnung

30 FH-Erstsemester mit unterschiedlichem schulischen Background legen zu Beginn ihres Studiums einen Einstufungstest ab. Nachfolgend soll überprüft werden, ob zwischen dem Schulabschluss der Probanden und ihrem Testergebnis ein Zusammenhang besteht.

Beispiel Chi-Quadrat-Unabhängigkeitstest

Schritt 1: Berechnung der Randsummen:

Beispiel Chi-Quadrat-Unabhängigkeitstest

Schritt 2: Berechnung der zu erwartenden Verteilung bei völliger Unabhängigkeit:

Beispiel Chi-Quadrat-Unabhängigkeitstest

Schritt 3: Summierung der quadrierten Differenzen geteilt durch die zu erwartenden Werte:

(7-7,6)²/7,6 = 0,0474
(6-5,7)²/5,7 = 0,0158
(6-5,7)²/5,7 = 0,0158
(5-4,4)²/4,4 = 0,0818
(3-3,3)²/3,3 = 0,0273
(3-3,3)²/3,3 = 0,0273

Es ergibt sich ein Chi-Quadrat-Wert von 0,2157, welcher den kritischen Wert von (hier erneut) 3,84 nicht überschreitet. Die Nullhypothese, nach der die beiden Variablen als unabhängig voneinander einzustufen sind, kann somit nicht verworfen werden, d.h. ein Zusammenhang ist nicht wahrscheinlich.

Übungsaufgabe

40 am Markt befindliche Statistik-Programme wurden auf die Frage hin geprüft, ob sie die nötige Funktionalität für den Einsatz in einer Statistik-Grundlagenvorlesung bieten. Festgehalten wurde auch, ob Programme kostenfrei verfügbar sind oder ob sie kostenpflichtig erworben werden müssen.

Beispiel Chi-Quadrat-Unabhängigkeitstest

Sind die Merkmale „Anforderungserfüllung“ und „Kosten“ stochastisch unabhängig voneinander? Führen Sie einen Chi-Quadrat-Test bei einem Fehlerniveau von 5% durch.

Zur Anzeige der Lösungen bitte hier klicken.


Die hier vorgestellten Inhalte und Aufgaben sind Teil der Vorlesung “Grundlagen der Statistik” im berufsbegleitenden Bachelor-Studiengang Betriebswirtschaftslehre an der Hochschule Harz. Eine vollständige Übersicht aller Inhalte dieser Vorlesung im Wissenschafts-Thurm findet sich hier: Grundlagen der Statistik.

About The Author

8 Kommentare zu „Grundlagen der Statistik: Der Chi-Quadrat-Unabhängigkeitstest“

  1. Hey,

    vielen lieben Dank für diesen Bericht, dieser hat mir in der Prüfungszeit sehr geholfen, damit ich diesen Test etwas besser verstehe!
    Macht weiter so, das ist spitze!

    LG

  2. Nicht schlecht! Ich muss aber sagen, bischen mehr Schwierig hätte mir gefallen (wobei mir Wikipedia nach einen einstündigen Kampf auf der anderen Seite zu viel ist. 😀 Sehr frech das der Text nicht genau mein Niveau hat 🙂 ) Fragen die ich mit noch stelle sind: Welche Mindestgröße muss eine Messreihe besitzen? Was bedeutet der Freiheitsgrad? Geht es da um die Feinheit der Klassifizierung der (zwei) Eigenschaften oder und die Anzahl der erfassten Eigenschaften? Wie hat man die Erfassung der Zufallsmessgrößen zu verstehen? (Im Sinne von: so eine hohe Signifikanzzahl haben nur noch (z.B) 5% der zufälligen Messreihen… Hängt das nicht maßgeblich von der Größe der kreierten Zufallsmessreihe ab?) Liebe Grüße aus Leipzig!

  3. Wer nicht verstanden hat, was ein Freiheitsgrad in diesem Zusammenhang ist, fängt hiermit nicht viel an. Das ist ungefähr so wie, wenn man Prozentrechnen damit erklärt, doch bitte die Prozenttaste am Taschenrechner zu drücken. Der Text hier ist lieb gemeint aber zum Lernen ungeeignet.

    1. Da stimme ich zu. Da ich hier im Blog nach und nach ein Skript entwickele, stehen die einzelnen Beiträge in der Tat nicht immer in der Reihenfolge, in der sie irgendwann stehen sollen – eine Erklärung zum Konzept der Freiheitsgrade fehlt definitiv noch und wird dann hier im Beitrag verlinkt, sobald sie erschienen ist…

  4. Generell gut gemacht, aber bei einer Sache dürfte dir wahrscheinlich ein Fehler unterlaufen sein. Bei der Beispielrechnung gibt es ja 3 Zeilen und 2 Spalten, die Freiheitsgrade berechnen sich ja m. Wissens nach indem man (Zeilenanzahl – 1) x (Spaltenanzahl – 1) rechnet, in diesem Fall also (3-1) x (2-1) = 2. In der Tabelle müsste man also bei df 2 und 0,95 den kritischen Wert 5,99 heranziehen. Du schreibst aber “(hier erneut) 3,84”, was aber nur bei df 1 der Fall wäre. Wie bist du auf diesen Wert gekommen?

  5. Hallo Christian,

    Ich hätte eine Frage der etwas anderen Art: ich habe Variablen welche Nominalskaliert sind (Antwortoptionen: ja, zeitweise / ja, die ganze Zeit / Nein) welche ich auf ihren Einfluss auf die Zufriedenheit (1 – Stimme zu / 5 – Stimme überhaupt nicht zu) testen möchte. Ist das überhaupt möglich und wenn ja, mit welcher Methode?

    LG Rike

  6. @Rike: Vielen Dank für die Frage und sorry für die verspätete Antwort: Das beschriebene Szenario lässt sich u.a. genau mit dem hier dargestellten Chi-Quadrat-Test lösen, da man ja eine 3×5-Kreuztabelle bilden kann. Sollte es pro Tabellenfeld am Ende zu wenig Daten geben, könnte man ggf. auf 3×3 reduzieren, indem man bei der Zufriedenheit 1 und 2 (Zustimmung) sowie 4 und 5 (keine Zustimmung) zusammenfasst und nur die 3 (neutral) wie ursprünglich belässt.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

 

Hinweis: Die Markierung der Checkbox ist kaum zu erkennen. Falls der Kommentar nicht abgeschickt werden kann, bitte nochmals anklicken. 

Ich habe die Datenschutzerklärung gelesen und akzeptiert.

Scroll to Top