Suche
Suche Menü

Grundlagen der Statistik: Worin unterscheiden sich diskrete und stetige Merkmale – und wann sind Merkmale häufbar?

Skalen

Im Rahmen einer statistischen Einführungsvorlesung befasst man sich in der Regel auch mit der wichtigen Frage, nach welchen Eigenschaften man statistische Merkmale bzw. Variablen kategorisieren könnte. Dabei wird meistens die Unterscheidung in häufbare und nicht-häufbare Merkmale sowie in stetige und diskrete Merkmale thematisiert, die deshalb auch Gegenstand des heutigen Blogartikels sein soll.

Häufbare und nicht-häufbare Merkmale

Ein Merkmal gilt dann als häufbar, wenn es hinsichtlich der gleichen statistischen Einheit mehrere Ausprägungen annehmen kann. Dies ist bei einer Personenbefragung etwa bei Merkmalen wie dem Hobby oder der Berufsausbildung der Fall, da durchaus plausibel ist, dass ein Proband ganz verschiedene Hobbies ausüben oder auch mehrere Berufsausbildungen durchlaufen haben könnte. Auf eine Frage kann es also eine oder mehrere gültige Antworten geben. Andere Merkmale wie beispielsweise das Geburtsjahr oder aber das (biologische) Geschlecht müssen dagegen als nicht-häufbar betrachtet werden, da es hier pro Proband sinnigerweise nur eine korrekte Angabe geben kann.

In der Praxis ist die Frage der Häufbarkeit dann von großer Relevanz, wenn per Fragebogen erhobene Daten in eine tabellarische Struktur überführt werden sollen. Übersieht man nämlich bei der Anlage der Tabelle den Umstand, dass ein Merkmal mehrere Ausprägungen annehmen kann, und fällt dies dann erst bei der Eingabe des x-ten Datensatzes auf, muss die Tabelle unter Umständen komplett neu angelegt und mit der Dateneingabe – zumindest partiell – wieder von vorne begonnen werden. Zur Vermeidung nervlicher Dramen lohnt es sich daher, vor der Erfassung erhobener Daten am Rechner – auch aus anderen Gründen – kurz innezuhalten und darüber nachzudenken, welche Tabellenstruktur sich für die vorliegenden Daten eignet.

Ohje

Diskrete und stetige Merkmale

Ein Merkmal gilt dann als diskret, wenn es nur abzählbar viele Ausprägungen annehmen kann. In der Praxis bedeutet dies meist, dass die Anzahl der möglichen Ausprägungen endlich ist. Dies ist etwa bei Schulnoten, Geburtsjahren, Haarfarben, Geschlechtern oder auch der Anzahl der Teilnehmer/innen an einer Veranstaltung der Fall – in all diesen Fällen ist die Zahl der möglichen Ausprägungen endlich und lässt sich zumeist sogar vorab vollständig eingrenzen (z.B. Schulnoten von 1 bis 6, Anzahl an Teilnehmern zwischen 0 und maximal 10.000 etc. pp.). In vielen Lehrbüchern wird neben „abzählbar viele Ausprägungen“ mit „abzählbar unendlich viele Ausprägungen“ noch eine zweite Definition für die diskreten Merkmale angegeben, die auf den ersten Blick etwas verwirrend wirkt – schließlich könnte man meinen, dass eine Menge entweder unendlich ist, oder man sie abzählen kann.

Gemeint ist hiermit jedoch, dass eine Menge A eine unendliche Teilmenge der (ebenfalls unendlichen) Menge der natürlichen Zahlen N ist, deren Elemente sich abzählen lassen. Die Menge der Primzahlen ist beispielsweise eine abzählbar unendliche Menge, denn obwohl es unendlich viele Primzahlen gibt, ist sie kleiner als die Menge der natürlichen Zahlen (nicht jede Zahl ist ja eine Primzahl) und man kann ihre Elemente abzählen: Die erste Primzahl ist die 2, die zweite die 3, die dritte die 5 – und so weiter und so fort… Die formal korrekte Definition des Ausdrucks „abzählbar unendlich“ („In der Mengenlehre wird eine Menge A als abzählbar unendlich bezeichnet, wenn sie die gleiche Mächtigkeit hat wie die Menge der natürlichen Zahlen. Dies bedeutet, dass es eine Bijektion zwischen A und der Menge der natürlichen Zahlen gibt.“) lässt sich ergänzend in der Wikipedia nachlesen.

Das Gegenstück zu den diskreten Merkmalen sind die stetigen Merkmale. Diese sind dadurch definiert, dass sie unendlich viele Ausprägungen annehmen können. In der Praxis äußert sich dies dadurch, dass auch zwischen zwei nahe beieinanderliegenden Ausprägungen eines stetigen Merkmals theoretisch immer noch zusätzliche neue Ausprägungen eingefügt werden könnten, wenn man das zugrundeliegende Merkmal nur hinreichend genau messen kann. Ein Beispiel hierfür ist die Angabe eines Wasserpegels in cm. Zwischen die beiden Angaben 10,5 cm und 10,6 cm könnte man nämlich beliebig viele weitere Angaben legen: 10,51 cm, 10,511 cm, 10,512 cm usw. usf. Weitere gängige Beispiele für stetige Merkmale sind Gewichte, Streckenlängen und Zeitintervalle – im Grunde also alles, was man (mit zunehmender Genauigkeit) physikalisch messen kann.

Ein typischer Fehler bei der Unterscheidung in stetige und diskrete Merkmale, der an dieser Stelle noch erwähnt werden soll, liegt in der Annahme, dass das Vorhandensein von Nachkommastellen automatisch bedeutet, dass ein stetiges Merkmal vorliegt. So verfügt zum Beispiel die Richterskala, anhand derer man die Stärke von Erdbeben misst („Ein Erdbeben der Stärke 4,4 auf der Richterskala erschütterte heute…“) trotz ihrer Nachkommastellen nur über eine eng begrenzte Anzahl möglicher Ausprägungen, und ist damit als diskret zu betrachten.

Skalenniveaus

Quasi-stetige Merkmale

Abschließend soll mit den quasi-stetigen Merkmalen noch ein besonderer Fall betrachtet werden. Hierbei handelt es sich um Merkmale, die im Grunde diskret sind (d.h. die über endlich oder abzählbar unendlich viele Ausprägungen verfügen), die aber so viele mögliche Ausprägungen aufweisen, dass sie im praktischen Umgang wie stetige Merkmale behandelt werden (und damit „quasi verstetigt“ werden – daher der Ausdruck „quasi-stetig“). Ein typisches Beispiel hierfür sind Preisangaben (etwa in Euro und Cent): Natürlich kann eine Preisangabe nur endlich viele Ausprägungen annehmen – allerdings so enorm viele (1,00 EUR; 1,01 EUR; 1,02 EUR.…), dass es sich lohnt so zu tun, als ob es unendlich viele Ausprägungen gäbe – und die eigentlich diskrete Variable damit wie eine stetige Variable zu behandeln.

Übung: Skalenniveaus und Variablentypen

Welches Skalenniveau (siehe vorheriger Blogpost) haben die folgenden Merkmale – und sind sie stetig oder diskret?

– Wassertiefe eines Schwimmbeckens
– Telefonnummern von Versandkunden
– Geschmacksrichtungen von Speiseeis
– Schulnoten auf einer Skala von 1 bis 6
– Abstand zwischen zwei Gebäuden in cm
– Preis eines Neuwagens in Euro und Cent
– Haarfarbe von Kundinnen im Friseursalon
– Temperatur eines glimmenden Holzscheits
– Produktwertung auf einer Skala von 1 bis 5
– Studiumsnoten auf einer Skala von 1,0 bis 5,0

Zur Anzeige der Lösungen bitte hier klicken.


Die hier vorgestellten Inhalte und Aufgaben sind Teil der Vorlesung „Grundlagen der Statistik“ im berufsbegleitenden Bachelor-Studiengang Betriebswirtschaftslehre an der Hochschule Harz.

Autor:

Christian Reinboth

Christian Reinboth ist Wirtschaftsinformatiker und einer der Mit-Gründer der HarzOptics GmbH, einem An-Institut der Hochschule Harz. Die Entwicklung und Planung umweltfreundlicher Beleuchtung sowie die statistische Datenanalyse sind wesentliche Schwerpunkte seiner Forschungs- und Lehrtätigkeit.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.