In einem Online-Shop gingen am 07.05.2021 Bestellungen von insgesamt 15 Kundinnen und Kunden ein, die Altersangaben in ihrem Kundenprofil hinterlegt haben. Diese 15 Altersangaben sind in der nachfolgenden Tabelle enthalten.
Kundennummer | Alter (in ganzen Jahren) |
17231 | 25 |
23471 | 31 |
23232 | 23 |
15327 | 27 |
17333 | 38 |
27443 | 19 |
51338 | 41 |
16207 | 28 |
32110 | 27 |
46558 | 68 |
27339 | 36 |
13237 | 31 |
72112 | 25 |
12613 | 25 |
92121 | 30 |
Zeichnen Sie einen erweiterten Box-Plot für die Verteilung der Altersangaben und benennen Sie die hierfür erforderlichen Größen. Wie jung müsste ein zusätzlicher (!) Kunde sein, um im Box-Plot als Ausreißer im unteren Bereich sichtbar zu werden?
Grundsätzliche Vorgehensweise:
Die Konstruktion des Box-Plots erfolgt in drei Schritten:
- Die Werte der Verteilung werden in eine geordnete Reihenfolge gebracht, um anschließend die drei Quartilswerte bestimmen zu können. Diese Werte benötigen wir für die Konstruktion der Box. Diese verläuft vom unteren bis zum oberen Quartilswert, der Median als mittlerer Quartilswert wird in die Box eingezeichnet.
- Anhand der Quartilswerte bestimmen wir nun den Interquartilsabstand (IQR) als Differenz zwischen dem oberen und dem unteren Quartilswert. Diesen Wert benötigen wir für die Konstruktion der Zäune. Der obere Zaun endet beim größten Wert im Datensatz, der sich noch in einem Bereich von Oberer Quartilswert + 1,5 IQR befindet. Der untere Zaun endet beim kleinsten Wert im Datensatz, der sich noch in einem Bereich von Unterer Quartilswert minus 1,5 IQR befindet.
- Befinden sich einzelne Werte im Datensatz außerhalb der Box und der Zäune, werden diese mit einem Kreissymbol als Ausreißer eingezeichnet. Liegen sie weiter als Oberer Quartilswert + 3,0 IQR oder Unterer Quartilswert – 3,0 IQR von der Box entfernt, werden sie mittels eines Sternchens als Extremwerte oder extreme Ausreißer gekennzeichnet.
Bildung der geordneten Reihe:
19, 23, 25, 25, 25, 27, 27, 28, 30, 31, 31, 36, 38, 41, 68
Bestimmung der Quartilswerte:
0,25 * 15 = 3,75 -> Wert an der 4. Stelle der geordneten Verteilung -> 25
0,50 * 15 = 7,50 -> Wert an der 8. Stelle der geordneten Verteilung -> 28
0,75 * 15 = 11,25 -> Wert an der 12. Stelle der geordneten Verteilung -> 36
Bestimmung des Interquartilsabstands (IQR):
IQR -> 36 – 25 = 11
1,5-facher IQR -> 16,5
Bestimmung der Zaungrenzen:
25 – 16,5 = 8,5 -> kleinster Wert im Datensatz über dieser Grenze -> 19
36 + 16,5 = 52,5 -> größter Wert im Datensatz unter dieser Grenze -> 41
Im Ergebnis verläuft die Box damit von 25 auf 36, der Median wird bei 28 als Linie in die Box eingezeichnet. Der untere Zaun läuft bis zu 19, der obere Zaun bis zu 41, ein einzelner Ausreißer wird bei 68 eingezeichnet.
Und wie jung müsste nun ein zusätzlicher (!) Kunde sein, um im Box-Plot als Ausreißer im unteren Bereich sichtbar zu werden?
Einfache Lösung:
Man schaut auf die Zaungrenzen der Ursprungsaufgabe und stellt fest, dass der kleinste Nicht-Ausreißer hier bei 8,5 Jahren liegen würde. Da nur in ganzen Jahren gemessen wurde, müsste ein zusätzlicher Kunde damit 8 Jahre oder jünger sein, um im Box-Plot als Ausreißer gekennzeichnet zu werden. Diese Lösung berücksichtigt allerdings nicht den konkreten Wortlaut der Aufgabe: Wie jung müsste ein zusätzlicher (!) Kunde sein, um im Box-Plot als Ausreißer im unteren Bereich sichtbar zu werden? Es kommt also ein Wert dazu, womit es statt 15 insgesamt 16 Werte gibt.
Komplexe Lösung:
Die geordnete Reihe kann für 16 Werte auch in Unkenntnis des neu hinzugekommenden Wertes (dieser soll ja bestimmt werden) gebildet werden:
X, 19, 23, 25, 25, 25, 27, 27, 28, 30, 31, 31, 36, 38, 41, 68
Bestimmung der Quartilswerte:
0,25 * 16 = 4 -> Mittel der Werte an 4. und 5. Stelle -> 25
0,75 * 16 = 12 -> Mittel der Werte an 12. und 13. Stelle -> 33,5
Bestimmung des IQR:
33,5 – 25 = 8,5
1,5-facher IQR = 12,75
Bestimmung der unteren Zaungrenze:
25 – 12,75 = 12,25
Da das Alter in ganzen Jahren erfasst wird, dürfte eine tatsächlich neu hinzukommende Person also höchstens 12 Jahre alt sein, um als Ausreißer im unteren Teil des Box-Plots zu erscheinen.
>>> Zurück zur Übersichtsseite Statistik.
Diese Übungsaufgabe stammt aus der Vorlesung “Grundlagen der Statistik” von Christian Reinboth im berufsbegleitenden Bachelor-Studiengang BWL an der Hochschule Harz.