Varianz und Standardabweichung (empirisch)

Aus MM-Stat
Wechseln zu: Navigation, Suche
Nuvola apps bookcase 1 blue.svg Statistik I&II/Eindimensionale Häufigkeitsverteilung
Eindimensionale Häufigkeitsverteilung • Graphische Darstellung eindimensionaler Verteilungen • Verteilungsfunktion (empirisch) • Parameter eindimensionaler Verteilungen (empirisch) • Modus • Arithmetisches Mittel • Harmonisches Mittel • Geometrisches Mittel • Quantil • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz und Standardabweichung (empirisch) • Multiple Choice


Grundbegriffe

Mittlere quadratische Abweichung

Die quadratischen Abweichungen der Beobachtungswerte von einem bestimmten Bezugspunkt c heißt mittlere quadratische Abweichung (MQ).

Der Bezugspunkt c kann einem beliebigen Wert auf der Merkmalsachse entsprechen.

 MQ(c)=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(x_{i}-c)^{2}

 MQ(c)=\frac{1}{n}\cdot \sum\limits_{j=1}^{k}(x_{j}-c)^{2}\cdot h(x_{j})=\sum\limits_{j=1}^{k}(x_{j}-c)^{2}\cdot f(x_{j})

Empirische Varianz

Bei Verwendung des arithmetischen Mittels als Bezugspunkt c hat die mittlere quadratische Abweichung einen speziellen Namen erhalten: empirische Varianz.

Die empirische Varianz für die beobachteten Werte eines Merkmals wird im weiteren mit s^{2} bezeichnet.

 s^{2} = \frac{1}{n}\cdot  \sum\limits_{i=1}^{n} (x_{i} - \bar{x})^{2} = \frac{1}{n}\sum\limits_{i=1}^{n} x_{i}^{2} - \bar{x}^{2}

s^{2} = \frac{1}{n}\cdot  \sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2}\cdot  h(x_{j}) = \sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2}\cdot  f(x_{j})

Empirische Standardabweichung

Die empirische Standardabweichung s entspricht der positiven Quadratwurzel aus der empirische Varianz.

s = \sqrt{s^{2}} = \sqrt{\frac{1}{n}\cdot \sum\limits_{i=1}^{n} (x_{i} - \bar{x})^{2}}

s = \sqrt{\frac{1}{n}\cdot  \sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2}\cdot  h(x_{j})} = \sqrt{\sum\limits_{j=1}^{k} (x_{j} - \bar{x})^{2}\cdot  f(x_{j})}

Empirischer Variationskoeffizient

Sollen die empirischen Standardabweichungen verschiedener Verteilungsfunktionen miteinander verglichen werden, wird ein (auf das arithmetische Mittel bezogenes) relatives Streuungsmaß, der empirische Variationskoeffizient verwendet.

Der empirische Variationskoeffizient weist keine Maßeinheit auf.

 v=\frac{s}{|\bar{x}|}

Empirischer Quartilsdispersionskoeffizient

Dividiert man den Interquartilsabstand durch den Median, so erhält man eine robuste Version des empirischen Variationskoeffizienten

v_r=\frac{x_{0,75}-x_{0,25}}{x_{0,5}}

Diesen bezeichnet man auch als empirischen Quartilsdispersionskoeffizienten.

Zusatzinformationen

Wertebereich

Die empirische Varianz  s^{2} (und damit die empirische Standardabweichung s) ist stets größer oder gleich Null.

Nimmt sie den Wert 0 an, so weist das beobachtete Merkmal keine Streuung auf und alle Beobachtungswerte haben den gleichen numerischen Wert.

Beziehung zwischen mittlerer quadratischer Abweichung und Varianz

Die auf das arithmetische Mittel \bar{x} bezogene mittlere quadratische Abweichung (d.h. die empirische Varianz) ist kleiner als jede auf einen verschiedenen Wert c bezogene mittlere quadratische Abweichung.

Dies lässt sich anhand des Verschiebungssatzes zeigen, der eine Beziehung zwischen der mittleren quadratischen Abweichung in bezug auf c und der empirischen Varianz beinhaltet:

\begin{matrix} 
MQ(c) & =& \frac{1}{n}\cdot \sum\limits_{i=1}^{n}(x_{i}-c)^{2}=\frac{1}{n}\cdot \sum\limits_{i=1}^{n}(x_{i}-\bar{x}+\bar{x}-c)^{2}\\
\ & = & \frac{1}{n}\cdot \left[  \sum\limits_{i=1}^{n}(x_{i}-\bar{x})^{2}+2(\bar{x}-c)\cdot \sum\limits_{i=1}^{n}(x_{i}-\bar{x})+n\cdot (\bar{x}-c)^{2}\right] \\
\ & = & \frac{1}{n}\cdot \sum\limits_{i=1}^{n}(x_{i}-\bar{x})^{2}+(\bar{x}-c)^{2}=s^{2}+(\bar{x}-c)^{2} \end{matrix}

Nunmehr ist sofort ersichtlich, dass nur im Falle c = \bar{x} die mittlere quadratische Abweichung MQ(c) mit der empirischen Varianz identisch und in allen anderen Fällen MQ(c) größer als die empirische Varianz ist.

Lineare Transformation

 y_{i}=a+bx_{i} \Rightarrow s_{y}^{2}= b^{2}\cdot s_{x}^{2},\ s_{y}=|b|\cdot s_{x}

Standardisierung

 \, z_{i}=a+bx_{i}, mit  a=-\frac{\bar{x}}{s_{x}} und  b=\frac{1}{s_{x}}

 z_{i}=\frac{x_{j}-\bar{x}}{s_{x}}

 \Rightarrow\bar{z}=0,\quad s_{z}^{2}=1

Gepoolter Datensatz

Sind die Beobachtungswerte in Gruppen unterteilt und sind für jede Gruppe das arithmetische Mittel und die empirische Varianz bekannt, dann kann die empirische Varianz für alle Beobachtungswerte mit der folgenden Formel berechnet werden:

 s^{2}=\sum\limits_{i=1}^{r}\frac{n_{i}}{n}\cdot s_{i}^{2}+\sum\limits_{i=1}^{r}\frac{n_{i}}{n}\cdot (\bar{x_{i}}-\bar{x})^{2}

 \bar{x_{1}},\dots,\bar{x_{r}} arithmetische Mittel der einzelnen Gruppen
 s_{1}^{2},\dots,s_{r}^{2} empirische Varianzen der einzelnen Gruppen
 n_{1},\dots,n_{r} Anzahl der Beobachtungen in den einzelnen Gruppen und,
 n=n_{1}+\dots+n_{r}

Streuungszerlegung

Wie die obige Formel zeigt, wird die empirische Varianz in zwei Komponenten zerlegt.

gesamte empirische Varianz = empirische Varianz innerhalb der Teilmassen + empirische Varianz zwischen den Teilmassen

Beispiele

Mittlere quadratische Abweichung und Varianz

Beobachtungswerte:  \ 2, 5, 9, 20, 22, 23, 29

 x_{0.5}=20\qquad Var(x_{0.5})=109.14

 \bar{x}=15.71\qquad Var(\bar{x})=90.78

Anwendung des Variationskoeffizienten

Die Berechnung der Mittelwerte und empirischen Standardabweichungen zweier Beobachtungsreihen habe folgende Werte ergeben:

\bar{x}_{1}=250\quad s_{1}=10

\bar{x}_{2}=750\quad s_{2}=30

Ein Vergleich auf Grundlage der beiden empirischen Standardabweichungen führt zu der Feststellung, dass die Streuung in der zweiten Beobachtungsreihe dreimal höher ist, als die der Beobachtungsreihe eins.

Da jedoch beide Beobachtungsreihen unterschiedliche Mittelwerte besitzen, muss der Variationskoeffizient zum Vergleich herangezogen werden:

 \, v_{1}=\frac{10}{250} = 0.04

 \, v_{2}=\frac{30}{750}=0.04

Die relative Streuung beider Beobachtungsreihen ist gleich groß.

Pizzapreis

In 20 Supermärkten Berlins wurden die Verkaufspreise (in Euro) für Pizzen der Marke Dr. O. ermittelt:


3,99; 4,50; 4,99; 4,79; 5,29; 5,00; 4,19; 4,90; 4,99;
4,79; 4,90; 4,69; 4,89; 4,49; 5,09; 4,89; 4,99; 4,29; 4,49; 4,19


  • Der mittlere Preis der der Größe nach geordneten Reihe von Preisen beträgt 4.84 Euro (= Median)
  • Zwischen teuerstem und preiswertestem Anbieter liegen 1.30 Euro (= Spannweite)
  • 50% aller Pizzapreise liegen im Bereich zwischen 4.49 Euro (Quartil  x_{0.25} ) und 4.99 Euro (Quartil  x_{0.75} ), was einem Bereich von 0.50 Euro (= Quartilsabstand) entspricht.

Automobilverkaufspreis

Von 74 verschiedenen Autotypen wurde der Verkaufspreis in US$ ermittelt.

Das Ergebnis ist als Plot der Merkmalsausprägungen (Dotplot) dargestellt. Die Merkmalsausprägungen sind bei diesem Plot auf einer Merkmalsachse abgetragen.

Zur besseren Veranschaulichung der Verteilung sind die Ausprägungen auf der vertikalen Achse zufällig gegeneinander verschoben.

Im oberen Dotplot sind Spannweite (grün), arithmetisches Mittel (schwarz) und empirische Standardabweichung (rot) eingezeichnet.

Im unteren Dotplot sind Spannweite (grün), Median (schwarz) und Quartilsabstand (magenta) eingezeichnet.

arithmetisches Mittel: 4896,42
Median: 4672
Spannweite: 4536
Quartilsabstand: 1554,75
Standardabweichung: 991,24

Bei nochmaliger Durchsicht der Notierungen der Verkaufspreise ergab sich ein Übertragungsfehler in die Datei derart, dass für den maximalen Verkaufspreis fälschlicherweise 5799 US$ statt des richtigen Wertes von 15799 US$ eingetragen wurde.

Die folgenden Dotplots und statistischen Parameter berücksichtigen den korrigierten maximalen Verkaufspreis.

arithmetisches Mittel: 5063,08
Median: 4672
Spannweite: 12508
Quartilsabstand: 1554,75
Standardabweichung: 1719,06

Es bedarf keines Kommentars, dass die Spannweite erheblich größer wird, denn sie beruht auf den beiden Extremwerten.

Der Quartilsabstand als robuster Streuungsparameter bleibt unberührt, da sich nicht die Anzahl der Verkaufspreise, sondern nur der maximale Verkaufspreis verändert hat.

Die empirische Standardabweichung hingegen ist deutlich größer geworden.

Die Ursache liegt darin, dass in ihre Berechnung alle Verkaufspreise eingehen und sie damit anfällig gegenüber extremen Merkmalswerten ist.

Nach einiger Zeit wurden die Verkaufspreise für die 74 Autotypen erneut erfasst. Das Ergebnis zeigen die nachstehende Grafik und Parameter.

arithmetisches Mittel: 6165,26
Median: 5006,5
Spannweite: 12615
Quartilsabstand: 2112
Standardabweichung: 2949,5

Nunmehr gibt es nicht nur einen extrem großen Verkaufspreis, sondern einige größere Beobachtungswerte, die sich deutlich von der Masse der Beobachtungswerte abheben.

Die Verkaufspreise weisen eine schiefe Verteilung auf, und zwar wegen der extrem großen Werte eine rechtsschiefe Verteilung.

Kennzeichnend für eine schiefe Verteilung ist, dass im allgemeinen die empirische Standardabweichung größer ist als der Quartilsabstand, was in diesem Beispiel gegeben ist.