In den kommenden Monaten wollen wir hier im „Wissenschafts-Thurm“ in einer kleinen Blogserie einen Themenbereich beleuchten, mit dem sehr viele Studierende im Rahmen des Grundstudiums in Berührung kommen: Die Grundlagen der deskriptiven sowie der explorativen Statistik, wie sie in fast allen wirtschafts- und naturwissenschaftlichen Studiengängen unterrichtet werden.
Dabei werden wir uns u.a. mit folgenden Inhalten befassen:
– Mittelwerte (arithmetisches Mittel, Median, Quartile, Modus…)
– Dispersionsparameter (Interquartilsabstand, Spannweite, Varianz…)
– Grafische Darstellungsformen (Box-Plot und Stamm-Blatt-Diagramm)
– Korrelationskoeffizienten (Bravais-Pearson, Spearman, Kendall…)
– Statistische Testverfahren am Beispiel des Chi²-Unabhägigkeitstests
– Grundlagen der Kombinatorik und Wahrscheinlichkeitslehre
Zu den meisten dieser Themen wird es zusätzlich zu einer geführten Übung (mit Lösungen) auch jeweils noch eine Übung zum Selbsttest geben, deren Lösung sich über einen zusätzlichen Link abrufen lässt. Der Foliensatz zur korrespondierenden Vorlesung – Statistik I und II in den (berufsbegleitenden) Bachelor-Studiengängen BWL und WiIng im Sommersemester 2016 an der Hochschule Harz – findet sich auf dieser Seite zum Download. Fragen zu den Vorlesungsinhalten sowie zu den Übungsaufgaben und Musterlösungen können natürlich sehr gerne in der Kommentarspalte der jeweiligen Beiträge gestellt werden.
Den ersten Beitrag wollen wir mit der Definition einiger Grundbegriffe eröffnen, deren Kenntnis für das Verständnis aller folgenden Inhalte unerlässlich sein wird: Grundgesamtheit, Teilgesamtheit, Stichprobe, statistische Einheit, Merkmal und Merkmalsausprägung.
Grundgesamtheit / Population: Als Grundgesamtheit bezeichnen wir die Menge sämtlicher für eine Untersuchung relevanten statistischen Einheiten. Wollen wir beispielsweise eine Erhebung unter den 3.200 Studierenden der Hochschule Harz durchführen, stellen diese 3.200 Personen unsere Grundgesamtheit dar. Soll eine repräsentative Untersuchung durchgeführt werden, ist eine saubere Definition der Grundgesamtheit unverzichtbar, da nur aus einer komplett erfassten Grundgesamtheit eine echte Zufallsauswahl gezogen werden kann.
Teilgesamtheit / Teilpopulation: Innerhalb einer Grundgesamtheit können beliebig viele Teilgesamtheiten definiert werden. So sind beispielsweise die Gruppe der BWL-Studierenden oder die Gruppe der Informatik-Studierenden Teilgesamtheiten der Grundgesamtheit aller Studierenden. In diesem Beispiel können die Teilgesamtheiten sich übrigens überschneiden (konjunkt), da ein Studierender ja gleichzeitig in einem BWL- und einem Informatik-Studiengang eingeschrieben sein könnte. Auch schnittmengenfreie (disjunkte) Teilgesamtheiten lassen sich definieren – so etwa die Gruppe der männlichen und die der weiblichen Studierenden. Einzelne Teilmengen können wiederum Untermengen anderer Teilmengen sein – so ist etwa die Gruppe der weiblichen BWL-Studentinnen eine Teilmenge der Gruppe der BWL-Studierenden, die selbst wiederum eine Teilmenge der Grundgesamtheit aller Studierenden ist. Wie man sich leicht vorstellen kann, verliert man ab einer gewissen Anzahl von Teil-, Schnitt- und Untermengen schnell den Überblick – hier können sogenannte Venn-Diagramme helfen, die wir noch im Rahmen eines späteren Blogbeitrags betrachten werden.
Stichprobe: Bei einer Stichprobe handelt es sich um eine besondere Teilgesamtheit – nämlich um die Menge der statistischen Einheiten, die im Rahmen einer Erhebung tatsächlich untersucht wurden. Befragen wir aus der Grundgesamtheit der 3.200 Studierenden der Hochschule Harz also 100 Studierende, stellen diese 100 Personen eine Stichprobe dar. Soll die Stichprobe repräsentativ sein – d.h. soll aus den Antworten der 100 befragten Studierenden verlässlich auf die Ansichten der 3.200 Studierenden geschlossen werden – empfiehlt sich eine sogenannte Zufallsstichprobe. Auch zu den verschiedenen Stichprobenverfahren wird es natürlich noch einen entsprechenden Blogbeitrag geben.
Statistische Einheit: Wie aus den bisherigen Ausführungen bereits deutlich geworden sein dürfte, handelt es sich bei einer statistischen Einheit um ein einzelnes, im Rahmen einer statistischen Erhebung oder Untersuchung betrachtetes Objekt. Im Falle der Studierendenbefragung wäre eine statistische Einheit also ein einzelner Studierender – im Falle einer Stichprobe mit Bauteilen aus einer laufenden Produktion, stellt dagegen jedes einzelne Bauteil eine statistische Einheit dar.
Merkmal: Bei einem Merkmal handelt es sich um eine an einer statistischen Einheit untersuchte Eigenschaft. Befragen wir also beispielsweise die Studierenden nach ihrem Alter, ihrer Körpergröße oder ihrer Zufriedenheit mit dem Angebot der Mensa, stellen alle drei Eigenschaften – Alter, Größe und Zufriedenheit – Merkmale dieser Untersuchung dar. Bei der Arbeit mit SPSS oder anderer statistischer Software werden die Merkmale häufig auch als Variablen bezeichnet.
Ausprägung: Bei einer Ausprägung handelt es sich um den konkreten Wert, den ein untersuchtes Merkmal annimmt. Würde also bei unserer Studierendenbefragung ein befragter Student angeben, 28 Jahre alt, 1.85 Meter groß und mit dem Angebot der Hochschulmensa auf einer Skala von 1 (hochzufrieden) bis 5 (total unzufrieden) “hochzufrieden” zu sein, so stellen die Werte 28 Jahre, 1.85 Meter und “hochzufrieden” konkrete Ausprägungen der Merkmale Alter, Körpergröße und Zufriedenheit dar. Bei der Arbeit mit SPSS oder anderer statistischer Software entsprechen diese Ausprägungen dann den Werten der jeweiligen Variablen.
Übung: Identifizieren Sie die Grundbegriffe
Eine Wohnungsbaugesellschaft will aus der Menge ihrer Mieterinnen und Mieter diejenigen mit einem Alter oberhalb von 65 Jahren zum Thema „seniorenfreundliches Wohnen“ befragen. Hierzu werden per Zufall 150 ältere Mieterinnen und Mieter aus der Kundendatenbank herausgesucht und angeschrieben. Gefragt wird unter anderem nach der persönlichen Einschätzung von barrierefreien Korridoren, wobei lediglich einer der Befragten angibt, dass diese für ihn „überhaupt nicht von Bedeutung“ seien.
Was sind in diesem Kontext…
– Grundgesamtheit?
– Teilgesamtheit?
– Stichprobe?
– Statistische Einheit(en)?
– Merkmal?
– Ausprägung?
Zur Anzeige der Lösungen bitte hier klicken.
Die hier vorgestellten Inhalte und Aufgaben sind Teil der Vorlesung “Grundlagen der Statistik” im berufsbegleitenden Bachelor-Studiengang Betriebswirtschaftslehre an der Hochschule Harz. Eine vollständige Übersicht aller Inhalte dieser Vorlesung im Wissenschafts-Thurm findet sich hier: Grundlagen der Statistik.
Hallo, bin keine Studierende, sondern eine Rentnerin mit statistischen Kenntnissen aus meiner Studienzeit (1970-1974) an der MUL Halle-Wittenberg. Meine Frage: im Sachsen-Monitor wurden aus einer Grundmenge von 3,4 Mio Wahlberechtigten 1006 Sachsen befragt. Daraus wurde geschlussfolgert: z, Bsp. “Die Sachsen sind mit ihrem Leben zufrieden. ” Kann wirklich eine Teilmenge von 0,03% als repräsentativ bewertet werden?
Würde mich über eine fachliche Antwort sehr freuen!
Mit freundlichen Grüßen
Gisela Sperlich
Sehr geehrte Frau Sperlich,
zunächst einmal vielen Dank für Ihre Frage, die ich – mit etwas Verspätung – sehr gerne zu beantworten versuchen möchte. Tatsächlich ist die Ziehung repräsentativer Stichproben aus der Gesamtbevölkerung eine komplizierte Angelegenheit. Vor einigen Jahrzehnten waren die deutschen Haushalte noch zu weit mehr als 90% per Telefon-Festnetz erreichbar, so dass man gute Zufallsstichproben aus dem Telefonverzeichnis generieren konnte. Heutzutage verfügen längst nicht mehr alle Haushalte über einen Festnetz-Anschluss (Handy…) oder sind im Telefonbuch gelistet, zudem hat die Bereitschaft, sich an (sogar incentivierten) Umfragen zu beteiligen, spürbar nachgelassen. Online erreicht man aus vielerlei Gründen nur bestimmte Zielgruppen gut, nicht aber die Gesamtbevölkerung – und auch postalische Stichproben sind inzwischen mit einer Vielzahl von Problemen behaftet (und außerdem meist zu teuer). Aus diesem Grund wird von Agenturen mehr und mehr auf Panels oder konstruierte Stichproben aus Freiwilligenpools zurückgegriffen – aber ich schweife ab…
Zurück zu Ihrer eigentlichen Frage: Wenn man die Cochran-Formel für die Bestimmung des optimalen Stichprobenumfangs (von William G. Cochran, erstmals veröffentlicht im Jahr 1963) zugrunde legt und von folgenden Parametern ausgeht
Größe der Grundgesamtheit: 4.080.771 Einwohner*innen (laut Wikipedia)
Stichprobenanteile: unbekannt, daher beide 0,5
Breite des Konfidenzintervalls: +/- 0,03
Z-Wert: 1,96
kommt man auf eine Mindest-Stichprobengröße von 1.067 Personen, was schon sehr dicht an der von Ihnen genannten Zahl von 1.006 befragten Personen liegt. Geht man davon aus, dass die die Befragung durchführende Agentur vermutlich über eine deutlich bessere Datenbasis verfügt als ich (oder mit leicht abweichenden Parametern operiert), lässt sich guten Gewissens vermuten, dass die Stichprobe von den Durchführenden ausreichend groß dimensioniert wurde. Auch wenn die Gruppe der Befragten also auf den ersten Blick überraschend klein wirkt, kann die Stichprobe – bei korrekter Stichprobenziehung sowie bei entsprechend hohem Rücklauf – also durchaus repräsentativ gewesen sein:
Zur Cochran-Formel finden Sie hier noch einen (ganz) alten Blogpost von mir:
http://statistikberatung.blogspot.de/2008/03/samplesizer-kostenloses-tool-zur.html
Grundsätzlich sollte man sich von besonders groß oder auch besonders klein wirkenden Stichproben nie beeindrucken oder abschrecken lassen. Das “Literary Digest Desaster” des Jahres 1936 bietet eine schöne historische Anekdote zum Thema:
http://scienceblogs.de/frischer-wind/2008/05/25/das-literary-digest-disaster/
Viele Grüße
Christian Reinboth
Ein verbreiteter Irrglaube ist es, von der Größe der Stichprobe auf die Qualität der Ergebnisse zu schließen. Es existieren unsinnige Gerüchte, wie etwa: “Ab 2000 Befragte ist eine Untersuchung repräsentativ.” Christian hat den Zusammenhang treffend dargestellt. Ergänzend ist anzumerken, dass das Problem aller Markt- und Meinungsforschung darin besteht, keinen Zugriff auf die Grundgesamtheit (Bevölkerung) zu haben. Es gibt keine zugängliche Datei, in der die Bevölkerung (bedürfte auch einer genauen Definition) abgebildet ist. Somit ist es auch nicht möglich, eine Zufallsstichprobe zu ziehen, die die Grundgesamtheit repräsentativ abbildet. In der Praxis der Markt- und Meinungsforschung greift man daher auf Hilfskonstruktionen zurück, wie beispielsweise das Quoten-Verfahren oder das Random-Route-Verfahren. Die Verfahren sind nicht optimal, aber immer noch besser als konzeptlos irgendwie und irgendwo Interviews einzusammeln. Das passiert aber leider allzu oft. Fazit: Nicht die Stichprobengröße allein ist für die Qualität einer Umfrage entscheidend, sondern das Auswahlverfahren bestimmt ebenfalls maßgeblich die Aussagekraft der Ergebnisse!
https://de.wikipedia.org/wiki/Random-Route
https://de.wikipedia.org/wiki/Quotenstichprobe
Ich bin Mathematiker, verfüge daher m. E. über einen klaren Verstand, und als Gymnasialdirektor habe ich meinen Lehrern immer gepredigt, dass jede Unterrichtsstunde auch eine Deutschstunde ist. Daher ist mir Ihre Gender-Sprache ein Gräuel. “Weibliche BWL-Studentinnen” sind ein grober grammatikalischer Unfug und ebenso die Bezeichnung von Studenten als “Studierende”. Ein (männlicher oder weiblicher) Opernsänger ist auch dann einer, wenn er nicht ununterbrochen singt, also ein (gerade) “Singender” ist. Ebenso kenne ich keinen Studenten, der ununterbrochen studiert, also ein immer und überall “Studierender” ist. Und einer, der gerade eine Landkarte studiert, ist noch lange kein Student.
Als Wirtschaftswissenschaftler kann ich bezüglich des Genderings nur auf das Kriterium der Pareto-Optimalität verweisen: Die Inklusion möglichst vieler Personen in eine Formulierung stellt einige Menschen besser, aber niemanden schlechter, ist also gegenüber der Nicht-Inklusion klar zu bevorzugen. Dass es dabei an der einen oder anderen Stelle sprachlich noch ein wenig holprig zugeht, sind wenig mehr als die Geburtswehen dieses neuen Umgangs mit Sprache und Repräsentanz. In zehn Jahren werden uns vermutlich weit elegantere Lösungen flüssig aus der Feder gleiten.