Kenngrößen
Kenngrößen sind verschiedene Verteilungsparameter, die Unterschiedliches beschreiben und daher unterschiedliche Erkenntnisse liefern können. Anhand verschiedener Parameter lässt sich die Verteilung eines gemessenen Merkmals näher beschreiben. Es gibt Lage- und Streuungsparameter. Für die Auswahl eines geeigneten Lage- und Streuungsparameters ist es erforderlich, das Skalenniveau des gemessenen Merkmals bestimmen zu können.
Lageparameter beschreiben die zentrale Tendenz eines gemessenen Merkmals. Dabei wird für die Verteilung ein Wert aus den gemessenen Daten berechnet, der die Verteilung so gut wie möglich repräsentieren soll. Typische Lageparameter sind das arithmetische Mittel, der Median und der Modus.
Das arithmetische Mittel
Dieser Wert ist der bekannteste Lageparameter und in der Regel ist das arithmetische Mittel gemeint, wenn vom Mittelwert die Rede ist. Berechnet wird es wie der mathematische Durchschnitt: Die Summe aller Werte einer Stichprobe geteilt durch die Anzahl der Werte. Voraussetzung ist ein mindestens metrisches Skalenniveau.
Beispiel
Untersucht werden soll, wie alt die meisten AkademikerInnen in Deutschland sind, wenn sie promovieren. Dazu werden alle (bereits promovierten) TeilnehmerInnen einer Stichprobe befragt, wie alt sie waren, als sie ihre Promotion abgeschlossen haben. Die Summe aller Altersangaben durch die Zahl der Befragten ergibt das arithemtische Mittel. Das Ergebnis könnte sein: Im Durchschnitt promovieren AkademikerInnen in Deutschland mit 33 Jahren.
Das arithmetische Mittel ist empfindlich gegenüber Ausreißern (Extremwerten). Sind unter den Promovierten etwa mehrere RentnerInnen, wird das arithmetische Mittel des gemessenen Merkmals „Alter“ verzerrt und die gezogene Stichprobe erscheint älter, als sie tatsächlich ist. In einem solchen Fall bietet es sich an, den Median zu berechnen, der weniger empfindlich auf Extremwerte reagiert.
Der Median
Der Median teilt die Verteilung eines gemessenen Merkmals in zwei gleich große Hälften. Er ist das 50-Prozent-Quantil (auch 0,5-Quantil) der Verteilung. Das heißt, es liegen genau gleich viele Werte unter und über diesem Wert. Der Median ist gegenüber Ausreißern unempfindlich. Für die Berechnung ist ein mindestens ordinales Skalenniveau nötig.
Beispiel
Im Beispiel der AkademikerInnen liegt der Durchschnitt, also das arithmetische Mittel, bei rund 33 Jahren, der Median bei etwa 31. Der Unterschied kommt daher, dass es eine ganze Reihe an SeniorInnen gibt, die nach ihrem Berufsleben promoviert haben. Deren Altersangaben liefern hohe Werte (Ausreißer). Der Median ist für dieses Beispiel also aussagekräftiger, wenn es um berufsqualifizierende Promotionen geht.
Ist die Anzahl der Werte ungerade, entspricht der Median genau dem mittleren Wert der geordneten Verteilung. Ist die Anzahl gerade, so wird der Median als zwischen den beiden mittleren Werten liegend berichtet. Im Fall metrischer Daten wird das arithmetische Mittel aus den beiden mittleren Werten berechnet.
Der Modus
Der Modus (auch Modalwert) ist der häufigste Wert einer Verteilung. Er wird nicht berechnet, sondern kann aus der Häufigkeitstabelle oder dem Häufigkeitsdiagramm abgelesen werden. Der Modus ist bei sehr kleinen Stichproben anfällig für Zufälle. Voraussetzung ist ein mindestens nominales Skalenniveau.
Beispiel
Eine Schulklasse schreibt eine Arbeit. Die Note, die am häufigsten vergeben wurde, ist der Modalwert.
Abhängig von der Verteilung des gemessenen Merkmals können auch mehrere Modi existieren. Treten zum Beispiel zwei Merkmalsausprägungen gleich häufig auf, ist die Verteilung bimodal und zwei Modi werden berichtet. Mehr als zwei Modi sind ebenfalls möglich, dann handelt es sich um eine multimodale Verteilung.
Streuungsparameter beschreiben die Variabilität eines gemessenen Merkmals, das heißt, wie nah die Messwerte um den Mittelwert streuen, also verteilt sind. Typische Streuungsparameter sind Varianz, Standardabweichung und Spannweite. Bei Bedarf können Quantile, Quartile und der Quartilsabstand berichtet werden.
Varianz und Standardabweichung
Die Varianz ist definiert als Durchschnitt der quadrierten Abweichung der einzelnen Werte vom arithmetischen Mittel aller Werte. Die Varianz ist jedoch relativ ungebräuchlich und wird eher selten berichtet, da (1) durch das Quadrieren größere Abweichungen mit steigenden Zahlen stärker ins Gewicht fallen und (2) die Maßeinheit der Varianz nicht mehr mit der Maßeinheit der Messwerte übereinstimmt. Um diese Probleme zu umgehen, wird die Wurzel aus der Varianz gezogen und man erhält die Standardabweichung.
Die Standardabweichung, definiert als die Quadratwurzel der Varianz, ist im Vergleich zur Varianz leichter zu interpretieren und hat die gleiche Maßeinheit wie die Messwerte selbst. Ist die Standardabweichung klein, streut die Verteilung eng um das arithmetische Mittel. Ist die Standardabweichung groß, handelt es sich um eine breit streuende Verteilung, was die Aussagekraft des arithmetischen Mittels schwächt.
Voraussetzung: Es braucht mindestens ein metrisches Skalenniveau.
Hinweis: Varianz und Standardabweichung sind empfindlich gegenüber Ausreißern und Extremwerten.
Spannweite
Die Spannweite, oder Variationsbreite, berechnet sich aus dem kleinsten und dem größten Wert einer geordneten Messreihe.
Voraussetzung: Es braucht mindestens ein ordinales Skalenniveau.
Hinweis: Da die Spannweite aus Extremwerten berechnet wird, fallen Ausreißer in der Verteilung sehr stark ins Gewicht. Wenn beispielsweise alle Studierenden zwischen 18 und 30 Jahren alt sind und nur eine Person 58 Jahre alt ist, ist die Spannweite von 40 irreführend groß. Alternativ bietet sich die Berechnung des Quartilabstands an (siehe unten).
Quantile/Quartile und Quartilsabstand
Quantile definieren bestimmte Anteile einer Messwertverteilung. Dabei kann der Anteil durch einen p-Wert oder eine Prozentzahl angegeben werden. Ein 0,1-Quantil ist folglich dasselbe wie ein 10%-Quantil. Quartile sind eine Sonderform der Quantile und finden sehr häufig Anwendung.
Voraussetzung: Es braucht mindestens ein ordinales Skalenniveau.
Hinweis: Der Median ist das 50%-Quartil. Er teilt eine geordnete Verteilung in genau zwei gleich große Hälften. Die 25%- und 75%-Quartile teilen diese Hälften jeweils noch einmal in zwei gleich große Hälften. Die Berechnung der 25%- und 75%-Quartile folgt dem Prinzip der Median-Berechnung. Die Quartile stellen damit gleich große Viertel einer geordneten Verteilung dar und beschreiben damit eine gemessene Verteilung in ihrer Breite.
Der Quartilsabstand ist definiert als die Spannweite zwischen dem 25%- und 75%-Quartil. Der Quartilsabstand beschreibt folglich, wie breit die mittleren 50% einer Verteilung streuen. Er ist im Vergleich zur Spannweite wesentlich unempfindlich gegenüber Ausreißern und Extremwerten.
Weitere, eher spezifische und für die Belange Studierender meist weniger relevante Kenngrößen
Schiefe
Die Schiefe beschreibt die Symmetrie einer Verteilung (im Vergleich zu einer Normalverteilung mit einer Schiefe = 0). Sie kann bereits sehr einfach anhand der Lage von arithmetischem Mittel, Median und Modus zueinander bestimmt werden:
Linksschiefe Verteilung (Schiefe positiver Wert): Arithmetisches Mittel < Median < Modus
Rechtsschiefe Verteilung (Schiefe negativer Wert): Arithmetisches Mittel > Median > Modus
Hinweis: Die Berechnung der Schiefe ist nur bei unimodalen Verteilungen (Verteilung mit nur einem Modus) sinnvoll.
Steilheit
Die Steilheit (auch: Kurtosis, Wölbung oder Exzess), beschreibt, ob die Verteilung eines gemessenen Merkmals im Vergleich zu einer Normalverteilung (Kurtosis = 0) schmal- oder breitgipflig ist. Bei gleicher Standardabweichung können die Messwerte einer Verteilung stärker um den Mittelwert konzentriert sein (steilgipflige Verteilung) oder deutlich breiter über die gesamte Verteilung streuen (breitgipflige Verteilung).
Breitgipflige Verteilung: Kurtosis positiver Wert
Schmal- oder steilgipflige Verteilung: Kurtoris negativer Wert