Im Rahmen einer statistischen Einführungsvorlesung befasst man sich in der Regel auch mit der wichtigen Frage, nach welchen Eigenschaften man statistische Merkmale bzw. Variablen kategorisieren könnte. Dabei wird meistens die Unterscheidung in häufbare und nicht-häufbare Merkmale sowie in stetige und diskrete Merkmale thematisiert, die deshalb auch Gegenstand des heutigen Blogartikels sein soll.
Häufbare und nicht-häufbare Merkmale
Ein Merkmal gilt dann als häufbar, wenn es hinsichtlich der gleichen statistischen Einheit mehrere Ausprägungen annehmen kann. Dies ist bei einer Personenbefragung etwa bei Merkmalen wie dem Hobby oder der Berufsausbildung der Fall, da durchaus plausibel ist, dass ein Proband ganz verschiedene Hobbies ausüben oder auch mehrere Berufsausbildungen durchlaufen haben könnte. Auf eine Frage kann es also eine oder mehrere gültige Antworten geben. Andere Merkmale wie beispielsweise das Geburtsjahr oder aber das (biologische) Geschlecht müssen dagegen als nicht-häufbar betrachtet werden, da es hier pro Proband sinnigerweise nur eine korrekte Angabe geben kann.
In der Praxis ist die Frage der Häufbarkeit dann von großer Relevanz, wenn per Fragebogen erhobene Daten in eine tabellarische Struktur überführt werden sollen. Übersieht man nämlich bei der Anlage der Tabelle den Umstand, dass ein Merkmal mehrere Ausprägungen annehmen kann, und fällt dies dann erst bei der Eingabe des x-ten Datensatzes auf, muss die Tabelle unter Umständen komplett neu angelegt und mit der Dateneingabe – zumindest partiell – wieder von vorne begonnen werden. Zur Vermeidung nervlicher Dramen lohnt es sich daher, vor der Erfassung erhobener Daten am Rechner – auch aus anderen Gründen – kurz innezuhalten und darüber nachzudenken, welche Tabellenstruktur sich für die vorliegenden Daten eignet.
Diskrete und stetige Merkmale
Ein Merkmal gilt dann als diskret, wenn es nur abzählbar viele Ausprägungen annehmen kann. In der Praxis bedeutet dies meist, dass die Anzahl der möglichen Ausprägungen endlich ist. Dies ist etwa bei Schulnoten, Geburtsjahren, Haarfarben, Geschlechtern oder auch der Anzahl der Teilnehmer/innen an einer Veranstaltung der Fall – in all diesen Fällen ist die Zahl der möglichen Ausprägungen endlich und lässt sich zumeist sogar vorab vollständig eingrenzen (z.B. Schulnoten von 1 bis 6, Anzahl an Teilnehmern zwischen 0 und maximal 10.000 etc. pp.). In vielen Lehrbüchern wird neben “abzählbar viele Ausprägungen” mit “abzählbar unendlich viele Ausprägungen” noch eine zweite Definition für die diskreten Merkmale angegeben, die auf den ersten Blick etwas verwirrend wirkt – schließlich könnte man meinen, dass eine Menge entweder unendlich ist, oder man sie abzählen kann.
Gemeint ist hiermit jedoch, dass eine Menge A eine unendliche Teilmenge der (ebenfalls unendlichen) Menge der natürlichen Zahlen N ist, deren Elemente sich abzählen lassen. Die Menge der Primzahlen ist beispielsweise eine abzählbar unendliche Menge, denn obwohl es unendlich viele Primzahlen gibt, ist sie kleiner als die Menge der natürlichen Zahlen (nicht jede Zahl ist ja eine Primzahl) und man kann ihre Elemente abzählen: Die erste Primzahl ist die 2, die zweite die 3, die dritte die 5 – und so weiter und so fort… Die formal korrekte Definition des Ausdrucks “abzählbar unendlich” (“In der Mengenlehre wird eine Menge A als abzählbar unendlich bezeichnet, wenn sie die gleiche Mächtigkeit hat wie die Menge der natürlichen Zahlen. Dies bedeutet, dass es eine Bijektion zwischen A und der Menge der natürlichen Zahlen gibt.”) lässt sich ergänzend in der Wikipedia nachlesen.
Das Gegenstück zu den diskreten Merkmalen sind die stetigen Merkmale. Diese sind dadurch definiert, dass sie unendlich viele Ausprägungen annehmen können. In der Praxis äußert sich dies dadurch, dass auch zwischen zwei nahe beieinanderliegenden Ausprägungen eines stetigen Merkmals theoretisch immer noch zusätzliche neue Ausprägungen eingefügt werden könnten, wenn man das zugrundeliegende Merkmal nur hinreichend genau messen kann. Ein Beispiel hierfür ist die Angabe eines Wasserpegels in cm. Zwischen die beiden Angaben 10,5 cm und 10,6 cm könnte man nämlich beliebig viele weitere Angaben legen: 10,51 cm, 10,511 cm, 10,512 cm usw. usf. Weitere gängige Beispiele für stetige Merkmale sind Gewichte, Streckenlängen und Zeitintervalle – im Grunde also alles, was man (mit zunehmender Genauigkeit) physikalisch messen kann.
Ein typischer Fehler bei der Unterscheidung in stetige und diskrete Merkmale, der an dieser Stelle noch erwähnt werden soll, liegt in der Annahme, dass das Vorhandensein von Nachkommastellen automatisch bedeutet, dass ein stetiges Merkmal vorliegt. So verfügt zum Beispiel die Richterskala, anhand derer man die Stärke von Erdbeben misst (“Ein Erdbeben der Stärke 4,4 auf der Richterskala erschütterte heute…”) trotz ihrer Nachkommastellen nur über eine eng begrenzte Anzahl möglicher Ausprägungen, und ist damit als diskret zu betrachten.
Quasi-stetige Merkmale
Abschließend soll mit den quasi-stetigen Merkmalen noch ein besonderer Fall betrachtet werden. Hierbei handelt es sich um Merkmale, die im Grunde diskret sind (d.h. die über endlich oder abzählbar unendlich viele Ausprägungen verfügen), die aber so viele mögliche Ausprägungen aufweisen, dass sie im praktischen Umgang wie stetige Merkmale behandelt werden (und damit “quasi verstetigt” werden – daher der Ausdruck “quasi-stetig”). Ein typisches Beispiel hierfür sind Preisangaben (etwa in Euro und Cent): Natürlich kann eine Preisangabe nur endlich viele Ausprägungen annehmen – allerdings so enorm viele (1,00 EUR; 1,01 EUR; 1,02 EUR.…), dass es sich lohnt so zu tun, als ob es unendlich viele Ausprägungen gäbe – und die eigentlich diskrete Variable damit wie eine stetige Variable zu behandeln.
Übung: Skalenniveaus und Variablentypen
Welches Skalenniveau (siehe vorheriger Blogpost) haben die folgenden Merkmale – und sind sie stetig oder diskret?
– Wassertiefe eines Schwimmbeckens
– Telefonnummern von Versandkunden
– Geschmacksrichtungen von Speiseeis
– Schulnoten auf einer Skala von 1 bis 6
– Abstand zwischen zwei Gebäuden in cm
– Preis eines Neuwagens in Euro und Cent
– Haarfarbe von Kundinnen im Friseursalon
– Temperatur eines glimmenden Holzscheits
– Produktwertung auf einer Skala von 1 bis 5
– Studiumsnoten auf einer Skala von 1,0 bis 5,0
Zur Anzeige der Lösungen bitte hier klicken.
Die hier vorgestellten Inhalte und Aufgaben sind Teil der Vorlesung “Grundlagen der Statistik” im berufsbegleitenden Bachelor-Studiengang Betriebswirtschaftslehre an der Hochschule Harz. Eine vollständige Übersicht aller Inhalte dieser Vorlesung im Wissenschafts-Thurm findet sich hier: Grundlagen der Statistik.
Ok habe ich verstanden, nur warum ist der Hausabstand stetig? Es gibt zwar viele Zwischenwerte in cm, mm..etc..das ist klar aber ich hab ja ein Ende. Nämlich das andere Haus. Egal wer wann wie oft messen wird wird immer auf denselben Abstand kommen müssen oder ? Ich verstehe das als diskretes Merkmal. Und die Haarfarben sind zwar diskret, allerdings gibt es doch quasi unendlich viele Farbnuancen? Eigentlich müsste es sich hierbei doch um ein quasi-stetiges Merkmal handeln oder?
danke
@Valentin Klein: Vielen Dank für den spannenden Kommentar. Zu Ihren Fragen:
1) Dadurch, dass man (zumindest theoretisch) unendlich genau messen kann, ergeben sich auch (ebenfalls theoretisch) unendlich viele Hausabstände, auch wenn die Häuser in der Realität natürlich einen festen Abstand zueinander haben. Möglich ist ja auch die asymptotische Annäherung von einem Haus ans andere: Stellen Sie sich vor, die beiden Häuser stünden 20 Meter voneinander entfernt und Sie würden sich auf 10 Meter annähern – und danach die noch verbleibende Distanz immer wieder halbieren. Also 10 Meter, 5 Meter, 2,5 Meter, 1,25 Meter etc. pp. Wann würden Sie das andere Haus erreichen? Genau – nie. 🙂
2) Das stimmt – wenn man die physikalisch (also nach Wellenlänge oder Farbort) definiert, gäbe es sicher ausreichend viele Farbnuancen, um von einem quasi-stetigen Merkmal sprechen zu können. Denken wir dagegen an eine “normale” Farbskala, wie sie z.B. bei einem Frisör hängen würde, wäre das aber sicher nicht der Fall.
Danke erst einmal. Der Artikel hat mir sehr geholfen. Allerdings an einer Stelle ist er verwirrend: Im Text steht, dass es sich bei Angaben in EUR und Cent um Ausprägungen eines quasi-stetigen Merkmals handelt (wenn ich das richtig verstanden habe). In den Beispielen ist dann der Preis eines Neuwagens in EUR/ Cent aber diskret.
Im Übrigen ist m.E. ein Preis in EUR/ Cent eindeutig diskret: Es gibt zwischen zwei beliebigen Preisen eine eindeutige (zählbare) Anzahl von Preisen. Zwischen 1,05 € und 1,07 € z.B. liegt genau 1,06 € – 1,051 € gibt es nicht.
@Markus Nehlig: Vielen Dank für die Frage. Eine Preisangabe in Euro und Cent ist in der Tat – wie im Beispiel angegeben – meist diskret, Zu beachten ist aber, dass z.B. bei Börsenkursen oder aber bei der Angabe von Benzinpreisen durchaus auch mal mit mehr als nur zwei Nachkommastellen gerechnet wird. Dass der Preis gleichzeitig auch als Beispiel für ein quasi-stetiges Merkmal benannt wird, ist kein Widerspruch in sich: Bei einem quasi-stetigen Merkmal handelt es sich ja eben um ein diskretes Merkmal (wie eben den Preis), das aber so viele mögliche Ausprägungen (nämlich im Falle des Preises abzählbar unendlich viele) annehmen kann (5,10 EUR, 5,11 EUR, 5,12 EUR…), dass man es in der Praxis – rechnerisch – wie ein stetiges Merkmal behandeln kann. Will sagen: Der Preis ist eigentlich ein diskretes Merkmal, weist aber so viele Ausprägungen auf, dass man im Umgang mit Preisen ruhig so tun darf, als sei das Merkmal stetig. Damit ist es “quasi” stetig und somit in der Tat diskret und quasi-stetig zugleich.