Suche
Suche Menü

Grundlagen der Statistik: Dispersionsparameter – Varianz und Standardabweichung

In der dieswöchigen Folge des Statistik-Grundlagenkurses hier im „Wissenschafts-Thurm“ befassen wir uns mit der Varianz als dem wichtigsten und meistverwendeten Dispersionsparameter. Die Varianz berechnet sich als die Summe der quadrierten Abweichungen aller Einzelwerte einer Verteilung vom arithmetischen Mittel eben dieser Verteilung geteilt durch die Gesamtzahl der Werte.

Formel Varianz

An dieser Stelle lohnt es sich, die Formel nicht nur stur anzuwenden, sondern sie näher zu betrachten – was wird hier eigentlich gerechnet? Zunächst einmal wird die Differenz der einzelnen Werte der Verteilung (x1, x2, x3 … xn) vom arithmetischen Mittel gebildet, die Summe aller Differenzen wird anschließend durch die Anzahl der Werte der Verteilung geteilt. Man errechnet somit quasi das arithmetische Mittel der Differenzen aller Werte vom arithmetischen Mittel – oder anders formuliert die durchschnittliche Abweichung der Werte vom Zentrum der Verteilung. Diese durchaus naheliegende und fast schon intuitive Vorgehensweise für die Bestimmung der Streuung überrascht nur in einem Detail: Die zu addierenden Differenzen werden vorab quadriert um zu verhindern, dass sich positive und negative Abweichungen vom arithmetischen Mittel gegenseitig neutralisieren.

In vielen Formelsammlungen findet sich neben der bekannten Formel auch noch diese, leicht vereinfachte Berechnungsvorschrift:

Formel Empirische Varianz

Aufgrund des unumgänglichen Quadrierens ist allerdings auch das Ergebnis eine quadrierte Zahl, d.h. die Varianz einer Gehaltsverteilung steht nicht in der Einheit Euro, sondern in Euro². Dadurch lässt sie sich schlecht interpretieren – oder aber es besteht sogar die Gefahr einer inhaltlichen Fehlinterpretation, wenn die quadrierte Einheit „sinnvoll“ zu sein scheint (z.B. Quadratmeter). Aus diesem Grund wird bei der Berechnung der Varianz meist auch noch die Standardabweichung als positive Wurzel aus der Varianz und damit als „korrekt dimensionierter“ Dispersionsparameter angegeben.

Formel Standardabweichung

Variationskoeffizient

Wie wir im ersten Blogpost zu den Dispersionsparametern bereits gelernt haben, spielen die Streuungsmaße unter anderem beim Vergleich von Verteilungen eine wichtige Rolle. Hierbei kann es erforderlich werden, die Standardabweichung in eine dimensionslose Größe umzuwandeln, um einen Vergleich der Streuung von Verteilungen zu ermöglichen, die in verschiedenen Dimensionen erfasst werden. Als Beispiel sei auf den Vergleich von Preisverteilungen in Euro und mexikanischen Pesos verwiesen.

Da ein Euro etwa 20 Pesos entspricht, besteht bei einem direkten Vergleich der Standardabweichungen beider Verteilungen das Risiko, die Streuung der Preisangaben in Pesos im Verhältnis zu den Preisangaben in Euro aufgrund der größeren absoluten Differenzwerte erheblich zu überschätzen. Aus diesem Grund dividiert man die Standardabweichungen beider Verteilungen vor dem Vergleich noch durch die jeweiligen arithmetischen Mittel und generiert somit den dimensionslosen Variationskoeffizienten, mit dem ein Vergleich möglich wird. Die Berechnung des Variationskoeffizienten ist jedoch nur gestattet, wenn das arithmetische Mittel der Verteilung positiv ist.

Formel Variationskoeffizient

Empirische Varianz und Stichprobenvarianz

Im Rahmen dieser Blog-Serie arbeiten wir mit der sogenannten empirischen Varianz:

Formel Varianz

Bei der Berechnung von Varianzen mit SPSS, PSPP und anderen statistischen Analyseprogrammen wird dagegen meist die sogenannte Stichprobenvarianz berechnet; dann aber nicht als solche, sondern als „Varianz“ deklariert, was zu erheblicher Verwirrung bei Studierenden führen kann, die ihre Übungslösungen mit Hilfe von Software überprüfen möchten. Die Stichprobenvarianz unterscheidet sich von der empirischen Varianz darin, dass anstatt durch die Anzahl der Werte der Verteilung durch die Anzahl an Freiheitsgraden (n – 1) dividiert wird – ein Begriff, auf den in einem späteren Blogpost noch einmal näher eingegangen werden wird.

Formel Stichprobenvarianz

Beispielrechnungen

Für die Beispielrechnung greifen wir auf die Daten aus einem der letzten Blogposts zurück – Angaben zum Körpergewicht von 30 Probandinnen und Probanden.

Beispiel Varianz
Berechnung der Varianz

Für die Berechnung der Varianz empfiehlt sich die Anlage einer Hilfstabelle, über die sich die beiden benötigten Größen – das arithmetische Mittel sowie die Summe der quadrierten Abstände der Werte vom arithmetischen Mittel – schnell und einfach ermitteln lassen.

Beispiel Varianz

Die Varianz dieser Verteilung liegt bei 144,43 kg².
(Für alle Softwarenutzer: Die Stichprobenvarianz liegt bei 149,41 kg².)

Berechnung der Standardabweichung

Die Standardabweichung berechnet sich als positive Wurzel aus der Varianz und liegt bei 12,02 kg. (Für alle Softwarenutzer: Die Wurzel der Stichprobenvarianz beträgt 12,22 kg.)

Da hier keine unterschiedlich dimensionierten Verteilungen miteinander verglichen werden sollen (zum Beispiel eine Gewichtsverteilung in kg und eine Gewichtsverteilung in g) erübrigt sich an dieser Stelle die Bestimmung des Variationskoeffizienten.

Übungsaufgaben

Auch bei dieser Übungsaufgabe bleiben wir bei den Beispieldaten aus der vergangenen Übungseinheit – den Altersangaben der 30 schon nach ihrem Körpergewicht befragten Probandinnen und Probanden.

Beispiel Varianz

a) Bestimmen Sie die Varianz.
b) Bestimmen Sie die Standardabweichung.

Zur Anzeige der Lösungen bitte hier klicken.


Die hier vorgestellten Inhalte und Aufgaben sind Teil der Vorlesung „Grundlagen der Statistik“ im berufsbegleitenden Bachelor-Studiengang Betriebswirtschaftslehre an der Hochschule Harz.

Autor:

Christian Reinboth

Christian Reinboth ist Wirtschaftsinformatiker und einer der Mit-Gründer der HarzOptics GmbH, einem An-Institut der Hochschule Harz. Die Entwicklung und Planung umweltfreundlicher Beleuchtung sowie die statistische Datenanalyse sind wesentliche Schwerpunkte seiner Forschungs- und Lehrtätigkeit.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.