Zusammenhänge

In der Statistik werden neben Unterschieden auch vermehrt Zusammenhänge zwischen zwei oder mehr Variablen analysiert (z. B. ein Zusammenhang zwischen Geschlecht und Lohn bei einer Untersuchung zu geschlechtergerechter Bezahlung). Dabei soll ermittelt werden, ob die gemessenen Variablen zusammenhängen, wie groß dieser mögliche Zusammenhang ist und ggf. welche Richtung der Zusammenhang hat (positiv oder negativ):

Positiver Zusammenhang: Je mehr – desto mehr (und umgekehrt)
Negativer Zusammenhang: Je mehr – desto weniger (und umgekehrt)

Wichtig ist: Ein gemessener Zusammenhang ist nicht gleichbedeutend mit einem Kausalzusammenhang (für nähere Informationen zu diesem Thema siehe z. B. Scheinkorrelation oder unbeobachtete Drittvariablen). Eine Zusammenhangsanalyse kann jedoch helfen, die durch eine Theorie behaupteten Kausalitäten zu untermauern.

Nachfolgend werden verschiedene Zusammenhangsmaße vorgestellt. Für die Auswahl des richtigen Kennwertes sind Grundkenntnisse zu Skalenniveaus und deskriptiver Statistik von Vorteil.

Zusammenhänge von zwei Variablen
(A) Metrisches Skalenniveau:
Zusammenhänge zwischen metrischen Variablen lassen sich grafisch in einem Streudiagramm (auch: Scatterplot) visualisieren, in dem die einzelne Werte als Punkte dargestellt werden. Ein Zusammenhang lässt sich dann vermuten, wenn sich die Punkte wie bei einer linearen Regression einer Diagonalen annähern (Hinweis: Abhängig von der gewählten Analysemethode sind auch andere Funktionstypen möglich). Ist kein konkretes Punktmuster ersichtlich, liegt eher kein Zusammenhang vor.

Wichtig ist: Ein Streudiagramm ersetzt nicht die statistische Analyse über das Bestehen eines Zusammenhangs, seiner Größe und Richtung.

1. Korrelationskoeffizient r nach Pearson
Spricht man gemeinhin von Korrelation, ist oft der Korrelationskoeffizient r nach Pearson gemeint (auch: Produkt-Moment-Korrelation oder Pearson-Korrelation). Der Korrelationskoeffizient entsteht bei der Standardisierung der Kovarianz (cov) und ist im Gegensatz zu ihr interpretierbar.

Der Korrelationskoeffizient r nach Pearson kann dann berechnet werden, wenn ein möglicher linearer Zusammenhang zwischen zwei mindestens intervallskalierten Variablen ungerichtet ist. Von ungerichtet spricht man, wenn die gemessenen Variablen miteinander variieren, aber unklar ist, ob die eine Variable die andere bedingt oder nicht. Es kann folglich nicht von einer abhängigen und einer unabhängigen Variablen gesprochen werden. Kausale Aussagen sind ebenfalls nicht möglich.

Der Korrelationskoeffizient kann Werte zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang) annehmen. Liegt der Wert nahe 0 besteht kein Zusammenhang. Um die Größe eines Zusammenhangs abzuschätzen, kann man sich an der Einteilung von Cohen (1992) orientieren: ab 0.1 als schwach, ab 0.3 als mittel und ab 0.5 als stark.

Voraussetzungen:

  • Die Variablen sind mindestens intervallskaliert.
  • Die Variablen sind normalverteilt.
  • Der vermutete Zusammenhang zwischen den Variablen ist linear.

Ein Beispiel: Besteht ein Zusammenhang zwischen Motivation und Weitsprung (in Metern)?

Ist man hochmotiviert, springt man weiter; gleichzeitig lassen weite Sprünge eine gesteigerte Motivation erwarten. Es liegt also ein vermuteter ungerichteter linearer Zusammenhang vor, den es zu analysieren gilt.

Die Berechnung des Korrelationskoeffizienten r nach Pearson ergibt einen Wert r = 0.12. Der Wert ist positiv, aber relativ klein (r < 0.3). Es besteht für die gemessene Stichprobe an Personen lediglich ein schwacher Zusammenhang. Ob es sich dabei um einen für die Grundgesamtheit relevanten (also über die Stichprobe hinausgehenden) Zusammenhang handelt, kann man an der statistischen Signifikanz ablesen, die üblicherweise zusammen mit dem Korrelationskoeffizienten in der Ergebnistabelle ausgegeben wird.

Aus dem Korrelationskoeffizienten kann durch Quadrieren das Bestimmtheitsmaß ermittelt werden. Für dieses Beispiel ergibt sich ein Wert r2 = 0.12 = 0.0144. Das Bestimmtheitsmaß kann Werte zwischen 0 und +1 annehmen. Es wird traditionell mit 100 multipliziert und in Prozent angegeben. Es gibt an, welcher Anteil an Varianz in beiden Variablen durch gemeinsame Varianzquellen erklärt wird. Für das vorliegende Beispiel beträgt der Anteil der gemeinsamen Varianz 1.4%.

2. Einfache lineare Regression
Bei einer Regression von y auf x wird die abhängige Variable y gewöhnlich als Kriteriumsvariable und die unabhängige Variable x als Prädiktionsvariable bezeichnet.

Eine einfache lineare Regression kann dann berechnet werden, wenn ein möglicher linearer Zusammenhang zwischen zwei mindestens intervallskalierten Variablen gerichtet ist.

Mit Hilfe einer einfachen Regression können Ursachen- und Wirkungsanalysen sowie Prognosen analysiert werden.

Voraussetzungen:

  • Die abhängige und unabhängige Variable sind mindestens intervallskaliert.
  • Der vermutete Zusammenhang zwischen den Variablen ist linear.
  • Zudem sollten die Gauss-Markov-Annahmen geprüft werden.
  • Unabhängigkeit und Normalverteilung des Fehlerwertes.

Ein Beispiel: Wie beeinflusst die Körpergröße das Gehirnvolumen?
Alternativ: Kann das Gehirnvolumen durch die Körpergröße vorhergesagt werden?

Ist eine Person besonders groß, kann ein größeres Gehirn angenommen werden. Hingegen scheint es weniger plausibel, dass ein größeres Gehirn stets zu einer großen Person gehört. Es liegt also ein vermuteter gerichteter linearer Zusammenhang vor, den es zu analysieren gilt.

Der Regression liegt stets ein spezifisches Regressionsmodell zugrunde:

    Gehirnvolumen = β0 + β1 * Körpergröße + εi

β.. Regressionskoeffizienten
ε.. Fehlerterm

Zunächst wird statistisch die Signifikanz des Regressionsmodells geprüft. Dazu wird ein F-Test durchgeführt, der den Erklärungsbeitrag des Modells prüft. Ist das Modell signifikant, wird die Analyse fortgesetzt, indem die Signifikanz der Regressionskoeffizienten geprüft wird. Dazu wird für jeden der Regressionskoeffizienten ein t-Test durchgeführt. Sind diese signifikant, kann die Regressionsgerade ermittelt werden:

    Gehirnvolumen = 2.456 + 1.234 * Körpergröße
    [erdachte Werte]

Die Regressionsanalyse ergab, dass das Gehirnvolumen um 1.234 Einheiten (z. B. cm3) zunimmt, wenn die Körpergröße um eine Einheit (z. B. 1 cm) steigt.

Je nach Zuverlässigkeit der Vorhersage durch die unabhängigen Variablen ist der Fehler bei der Vorhersage groß oder klein. Je kleiner, desto mehr Varianz der abhängigen Variable y wird durch die unabhängige Variable erklärt. Wie viel Varianz durch die Analyse aufgeklärt wird, lässt sich am korrigierten R² ablesen. Das Bestimmtheitsmaß kann Werte zwischen 0 und +1 annehmen und multipliziert mit 100 gibt es an, wie viel Prozent der Gesamtstreuung an Gehirnvolumen durch die Körpergröße erklärt werden kann.

(B) Ordinales Skalenniveau:
Zusammenhänge zwischen mindestens ordinalskalierten Variablen lassen sich mit Hilfe des Rangkorrelationskoeffizienten rs nach Spearman bestimmen (auch: Spearman-Korrelation oder Spearmans Rho).

Neben linearen können auch nicht-lineare ungerichtete Zusammenhänge untersucht werden. Von ungerichtet spricht man, wenn die gemessenen Variablen miteinander variieren, aber unklar ist, ob die eine Variable die andere bedingt oder nicht. Es kann folglich nicht von einer abhängigen und einer unabhängigen Variablen gesprochen werden. Kausale Aussagen sind ebenfalls nicht möglich.

Die Rangkorrelation nach Spearman ist die nicht-parametrische Alternative, wenn die zu untersuchenden Daten die Voraussetzungen für eine Korrelation nach Pearson nicht erfüllen.

Der Rangkorrelationskoeffizient kann Werte zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang) annehmen. Liegt der Wert nahe 0, besteht kein Zusammenhang. Um die Größe eines Zusammenhangs abzuschätzen, kann man sich an der Einteilung von Cohen (1992) orientieren: ab 0.1 als schwach, ab 0.3 als mittel und ab 0.5 als stark.

Voraussetzungen:

  • Die Variablen sind mindestens ordinalskaliert.

Ein Beispiel: Besteht ein Zusammenhang zwischen der Einschätzung der eigenen Lebenszufriedenheit und der Einschätzung durch die Eltern?

Die Berechnung des Korrelationskoeffizienten rs nach Spearman ergibt einen Wert rs = 0.643. Es besteht für die gemessene Stichprobe an Personen ein starker Zusammenhang zwischen Selbst- und Fremdeinschätzung. Ob es sich dabei um einen für die Grundgesamtheit relevanten (also über die Stichprobe hinausgehenden) Zusammenhang handelt, kann man an der statistischen Signifikanz ablesen, die üblicherweise zusammen mit dem Korrelationskoeffizienten in der Ergebnistabelle ausgegeben wird.

Aus dem Rangkorrelationskoeffizienten kann durch Quadrieren das Bestimmtheitsmaß ermittelt werden. Für dieses Beispiel ergibt sich ein Wert rs2 = 0.643 = 0.413. Das Bestimmtheitsmaß wird traditionell mit 100 multipliziert und in Prozent angegeben. Es gibt an, welcher Anteil an Varianz in beiden Variablen durch gemeinsame Varianzquellen erklärt wird. Für das vorliegende Beispiel beträgt der Anteil der gemeinsamen Varianz 41.3%.

(C) Nominales Skalenniveau:
Eine typische Analyse, um Zusammenhänge zwischen nominal- bis ordinalskalierten Variablen zu untersuchen, ist die Kontingenzanalyse (auch: Pearson Chi-Quadrat-Test.

Der Pearson Chi-Quadrat-Test bestimmt den Zusammenhang zwischen zwei Variablen, indem beobachtete Häufigkeiten (Verteilung innerhalb der Kreuztabelle) und erwartete Häufigkeiten (Randverteilung in der Kreuztabelle) miteinander verglichen werden. Die beiden zu untersuchenden Variablen werden dazu in einer Kreuztabelle eingetragen. Je nach vorliegender Datenmatrix kann es daher notwendig sein, diese in eine Kreuztabelle umzuformen.

Um den Zusammenhang genauer zu bestimmen, können im Rahmen der Analyse unterschiedliche Koeffizienten berechnet und mit dem Pearson Chi-Quadrat-Test auf ihre Signifikanz geprüft werden.

Die Koeffizienten werden in symmetrische Maße und Richtungsmaße unterschieden. Die drei wichtigsten symmetrischen Maße basierend auf der Teststatistik Chi-Quadrat sind Phi (ϕ), Cramers V und der Kontingenzkoeffizient, wobei Cramers V am häufigsten verwendet wird. Anhand der Koeffizienten ist keine Richtung des Zusammenhangs ablesbar.

    a) Phi (ϕ) ist ausschließlich für 2×2-Tabellen geeignet. Phi variiert zwischen 0 (kein Zusammenhang) und +1 (perfekter Zusammenhang).

    b) Der Kontingenzkoeffizient ist eine Adaptation des Phi-Koeffizienten und für größere quadratische Tabellen geeignet (z. B. 3×3, 4×4 etc.). Er nimmt Werte zwischen 0 und einem Maximalwert an, welcher geringer als 1 ist.

    c) Cramers V ist eine Adaptation des Phi-Koeffizienten und für größere Tabellen jeglicher Form geeignet. Es hat den Vorteil, ungeachtet der Tabellengröße Werte von 0 bis +1 zu berechnen. Ab V ≥ 0.30 wird von einem starken Zusammenhang gesprochen.

Soll ein gerichteter Zusammenhang untersucht werden, werden Richtungsmaße berechnet. Zu ihnen zählen z. B. Goodman und Kruskals Gamma und Kendalls tau-b.

    d) Goodman und Kruskals Gamma rangiert zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang). Liegt der Wert nahe 0, besteht kein Zusammenhang. Für diesen Koeffizienten müssen die Variablen mindestens ordinalskaliert sein. Bei Variablen mit wenigen Kategorien neigt Goodman und Kruskals Gamma zur Überschätzung des Zusammenhangs.

    e) Kendalls tau-b variiert ebenso zwischen -1 (perfekter negativer Zusammenhang) und +1 (perfekter positiver Zusammenhang). Liegt der Wert nahe 0, besteht kein Zusammenhang. Auch hier werden mindestens ordinalskalierte Variablen vorausgesetzt, aber im Gegensatz zu Goodman und Kruskals Gamma werden zudem sogenannte Bindungen berücksichtigt. Nachteilig ist, dass auch bei (scheinbar) perfektem Zusammenhang der Wert +1 oder -1 nicht erreicht wird, auch wenn sich die Anzahl der Kategorien der betrachteten Variablen unterscheiden.

Voraussetzungen:

  • Die Variablen sind nominal- oder ordinalskaliert.
  • Die Stichprobe ist N>50 Personen. Bei kleinen Stichproben (N<50) wird der Exakter Test nach Fisher gerechnet; bei Stichproben 20
  • Die erwarteten Zellhäufigkeiten sind > 5 (alternativ: Korrektur nach Yates).
  • Die Freiheitsgrade des Chi-Quadrat-Tests sind > 1 (alternativ: Korrektur nach Yates).

Ein Beispiel: Besteht ein Zusammenhang zwischen Altersgruppe und Musikstil?

Für das vorliegende Beispiel wurden der Kontingenzkoeffizient CC = 0.266 und Cramers V = 0.178 berechnet. Der gefundene Zusammenhang wird als eher schwach eingestuft (da V<0.30). Ob es sich dabei um einen für die Grundgesamtheit relevanten (also über die Stichprobe hinausgehenden) Zusammenhang handelt, kann man an der statistischen Signifikanz ablesen, die üblicherweise zusammen mit den gewählten Koeffizienten in der Ergebnistabelle ausgegeben wird.

Zusammenhänge von mehr als zwei Variablen

Nachfolgende Analysen untersuchen Zusammenhänge zwischen einer abhängigen und mehreren unabhängigen Variablen. Die Gefahr von Scheinkorrelationen ist hier reduziert, da Einflüsse möglicher weiterer unabhängiger Variablen gemessen und in die Analyse mit einbezogen werden.

Ein Beispiel: In einer Voruntersuchung wurde ein Zusammenhang (Korrelationskoeffizient nach Pearson) zwischen Einkommen und Schuhgröße gefunden. So entstand der Eindruck, Schuhgröße habe einen Einfluss auf das Einkommen oder andersherum. Aber Vorsicht: Da Frauen durchschnittlich kleinere Schuhgrößen haben, liegt dieser Analyse ein versteckter Geschlechtereffekt zugrunde. Eine Analyse unter Einbezug von Geschlecht als eine weitere unabhängige Variable zeigt keinen Zusammenhang zwischen Einkommen und Schuhgröße.

Häufig werden tatsächlich auch mehr als nur zwei unabhängige Variablen in ein Modell einbezogen. Für die Untersuchung von Einkommensunterschieden eignen sich z. B. Alter, Bildungsgrad, Berufserfahrung und Geschlecht, um die abhängige Variable Einkommen – im Idealfall so umfänglich wie möglich – zu erklären. Dabei wird betrachtet, in welchem Grad die Ausprägungen der unabhängigen Variablen mit geringerem oder höherem Einkommen einhergehen.

Nachfolgend werden zwei Verfahren näher vorgestellt: (A) die multiple Regression (bei einer intervallskalierten abhängigen Variablen) und (B) die logistische Regression (bei einer dichotomen abhängigen Variablen).

(A) Multiple Regression

Die multiple Regression – eine Erweiterung der einfachen linearen Regression (s. o.) – ermöglicht, gleichzeitig mehrere unabhängige Variablen in ein Regressionsmodell einzubeziehen. Bei einer Regression von y auf x wird die abhängige Variable y dabei als Kriteriumsvariable und die unabhängigen Variablen x werden als Prädiktionsvariablen bezeichnet.

Die Grundidee ist, dass die unabhängigen Variablen x erklären, warum nicht alle Beobachtungen in der abhängigen Variable y den Mittelwert einnehmen, sondern y stattdessen die gemessene Varianz (Streuung) zeigt. Oder andersherum: Wir versuchen durch die Beobachtungen in den unabhängigen Variablen möglichst zuverlässig vorherzusagen, welchen Wert der abhängigen Variable eine Person einnimmt (um z. B. mit Kenntnis von Alter, Bildungsgrad, Berufserfahrung und Geschlecht das Einkommen einer Person zu schätzen). Im Regressionsmodell wird dann für jede unabhängige Variable ihr Einfluss auf die abhängige Variable berechnet und im Hinblick auf die statistische Signifikanz getestet.

Die multiple Regression analysiert gerichtete Zusammenhänge. Dazu zählen z. B. Ursachen- und Wirkungsanalysen sowie Prognosen.

Voraussetzungen:

  • Die abhängige Variable ist mindestens intervallskaliert.
  • Die unabhängigen Variablen sind mindestens intervallskaliert oder als Dummy-Variablen (dichotom mit 0 und 1) codiert.
  • Die unabhängigen Variablen korrelieren nicht zu stark miteinander (keine Multikollinearität).
  • Der vermutete Zusammenhang zwischen den Variablen ist linear.
  • Zudem sollten die Gauss-Markov-Annahmen geprüft werden.
  • Unabhängigkeit und Normalverteilung des Fehlerwertes.

Ein Beispiel: Wie beeinflussen Preis und Werbung den Nettoumsatz?

Der Regression liegt stets ein spezifisches Regressionsmodell zugrunde:

    Nettoumsatz = β0 + β1 * Preis + β2 * Werbung + εi

β.. Regressionskoeffizienten
ε.. Fehlerterm

Hinweis: Bei der Auswahl der Variablen für das Regressionsmodell spielen theoretische Überlegungen eine wichtige Rolle. Das Modell sollte möglichst einfach gehalten werden und nicht zu viele unabhängige Variablen enthalten.

Vor Analysebeginn muss zudem die Reihenfolge festgelegt werden, mit der die unabhängigen Variablen in das Modell eingehen (sogenannte Methode des Variableneinschlusses). Die Reihenfolge spielt nur dann keine Rolle, wenn alle unabhängigen Variablen vollständig unkorreliert sind, was selten der Fall ist. Varianten des Variableneinschlusses sind: (1) Einschluss, (2) Vorwärts-Selektion, (3) Rückwärts-Elimination und (4) schrittweise. Alternativ können zuvor auch Blöcke von Variablen bestimmt werden; in jedem Block läuft dann die bereits gewählte Methode des Variableneinschlusses ab. Die nachfolgenden Erläuterungen basieren auf der Methode (1) Einschluss.

Zunächst wird statistisch die Signifikanz des Regressionsmodells geprüft. Dazu wird ein F-Test durchgeführt, der den Erklärungsbeitrag des Modells prüft. Ist das Modell signifikant, wird die Analyse fortgesetzt, indem die Signifikanz der Regressionskoeffizienten geprüft wird. Dazu wird für jeden der Regressionskoeffizienten ein t-Test durchgeführt. Sind diese signifikant, kann die Regressionsgerade ermittelt werden:

    Nettoumsatz = 5288 – 44.51 * Preis + 0.89 * Werbung

Die Regressionsanalyse ergab, dass der Nettoumsatz um 44.51 Einheiten (EUR) sinkt, wenn der Preis um eine Einheit (EUR) steigt – sofern die unabhängige Variable Werbung konstant gehalten wird. Wenn die unabhängige Variable Werbung um eine Einheit (EUR) zunimmt, so steigt der Nettoumsatz um 0.89 Einheiten (EUR) an – sofern die Variable Preis konstant gehalten wird.

Wie viel Varianz durch die Analyse aufgeklärt wird, lässt sich am korrigierten R² ablesen. Das Bestimmtheitsmaß kann Werte zwischen 0 und +1 annehmen und gibt multipliziert mit 100 an, wie viel Prozent der Gesamtstreuung an Nettoumsatz durch die unabhängigen Variablen erklärt werden kann.

(B) Logistische Regression

Die logistische Regression ermöglicht wie die multiple Regression, mehrere unabhängige Variablen in ein Regressionsmodell einzubeziehen. Bei einer Regression von y auf x wird die abhängige Variable y dabei als Kriteriumsvariable und die unabhängigen Variablen x werden als Prädiktionsvariablen bezeichnet. Die abhängige Variable ist hier jedoch nicht metrisch, sondern binär (dichotom mit 0 und 1 codiert, auch Dummy-Variable genannt). Die abhängige Variable hat folglich nur zwei Ausprägungen, z. B. Eigenheimbesitzer (=1) oder nicht (=0).

Hinweis: Für ordinalskalierte abhängige Variablen und für nominalskalierte abhängige Variablen mit mehr als zwei Ausprägungen stehen Erweiterungen zur Verfügung: (1) die ordinale logistische Regression und (2) die multinominale logistische Regression.

Die Grundidee ist, dass für jede unabhängige Variable x geschätzt werden kann, mit welcher Wahrscheinlichkeit die abhängige Variable den Wert 1 annimmt. Durch die logistische Regression soll möglichst zuverlässig vorhergesagt werden, ob und wie stark z. B. die unabhängige Variable Einkommen die Wahrscheinlichkeit beeinflusst, ein Eigenheim (=1) zu besitzen (gleiches für die Variable Alter). Im Regressionsmodell wird dann für jede unabhängige Variable die Wahrscheinlichkeit berechnet und in Hinblick auf die statistische Signifikanz getestet.

Voraussetzungen:

  • Die abhängige Variable ist als Dummy-Variable (dichotom mit 0 und 1) codiert.
  • Die unabhängigen Variablen sind mindestens intervallskaliert oder als Dummy-Variablen (dichotom mit 0 und 1) codiert.
  • Die unabhängigen Variablen korrelieren nicht zu stark miteinander (keine Multikollinearität).
  • Für jede Gruppe, gebildet durch die kategorialen Prädiktoren, gilt n ≥ 25.

Ein Beispiel: Wie beeinflussen Einkommen und Alter die Wahrscheinlichkeit, ein Eigenheim zu besitzen?

Der Regression liegt stets ein spezifisches Regressionsmodell zugrunde:

1
P (Eigenheimbesitzer=1) = —————————————–
1+e–(β0 + β1 * Einkommen + β2 * Alter)

β.. Regressionskoeffizienten

Während bei der multiplen Regression eine lineare Regressionsgerade berechnet wird, versucht die logistische Regression, eine logistische Funktion zu ermitteln, welche die Daten am besten beschreibt. Eine logistische Funktion verläuft symmetrisch, kann Werte zwischen 0 (unwahrscheinlich) und 1 (sehr wahrscheinlich) annehmen, welche multipliziert mit 100 als Wahrscheinlichkeiten berichtet werden.

Hinweis: Bei der Auswahl der Variablen für das Regressionsmodell spielen theoretische Überlegungen eine wichtige Rolle. Das Modell sollte möglichst einfach gehalten werden und nicht zu viele unabhängige Variablen enthalten.

Vor Analysebeginn muss zudem die Reihenfolge, mit der die unabhängigen Variablen in das Modell eingehen, festgelegt werden (sogenannte Methode des Variableneinschlusses). Die Reihenfolge spielt nur dann keine Rolle, wenn alle unabhängigen Variablen vollständig unkorreliert sind, was selten der Fall ist. Varianten des Variableneinschlusses sind: (1) Einschluss, (2) Vorwärtsauswahl (Bedingt), (3) Vorwärtsauswahl (Likelihood-Quotient), (4) Vorwärtsauswahl (Wald-Statistik), (5) Rückwärts LR, (6) Rückwärtselimination (Bedingt), (7) Rückwärtselimination (Likelihood-Quotient) und (8) Rückwärtselimination (Wald-Statistik). Alternativ können zuvor auch Blöcke von Variablen bestimmt werden; in jedem Block läuft dann die bereits gewählte Methode des Variableneinschlusses ab. Nachfolgende Erläuterungen basieren auf der Methode (1) Einschluss.

Zunächst wird statistisch die Signifikanz des Regressionsmodells geprüft. Dazu wird ein Chi-Quadrat-Test durchgeführt, der den Erklärungsbeitrag des Modells prüft. Ist das Modell signifikant, wird die Analyse fortgesetzt, indem die Signifikanz der Regressionskoeffizienten geprüft wird. Dazu wird für jeden der Regressionskoeffizienten ein Wald-Test durchgeführt. Sind diese signifikant, kann die Regressionsfunktion ermittelt werden:

1
P (Eigenheimbesitzer=1) = ——————————————————-
1+e–(-1.734 + (-0.034) * Einkommen + 0.075 * Alter)

Hinweis: Für die Interpretation werden die Exp(B)-Werte näher betrachtet. Diese werden im Rahmen der Regressionsanalyse berechnet und können gewöhnlich den Ergebnistabellen entnommen werden.

Die Regressionsanalyse ergab, dass die relative Wahrscheinlichkeit, ein Eigenheim zu besitzen, um 2% (Exp(B)-1 = -0.02)* sinkt, wenn das Einkommen um eine Einheit (1000 EUR) steigt – sofern die Variable Alter konstant gehalten wird. Wenn die unabhängige Variable Alter um eine Einheit (Jahr) zunimmt, so steigt die relative Wahrscheinlichkeit, dass eine Person ein Eigenheim kauft um 7% (Exp(B)-1 = 0.07) an – sofern die Variable Einkommen konstant gehalten wird.

* erdachte Werte

Als Bestimmtheitsmaß werden zum R² (s. lineare Regression) vergleichbare Maße berechnet. Ein Beispiel ist das Cox und Snell R² oder das Nagelkerke R². Letzteres ist standardisiert und kann nur Werte zwischen 0 und 1 annehmen.