Donnerstag, 31. Juli 2014

Signifikanz und/versus Effektstärke

Werden wir einmal theoretisch. In der Forschung ist viel von Signifikanz die Rede. Signifikant auf einem Niveau von unter 0,001 (oder auch p < 0,000) heißt, die Wahrscheinlichkeit, dass der gefundene Unterschied bzw. die gefundene Korrelation zufällig aufgetreten ist, beträgt weniger als 0,1 Prozent. Zumeist wird mit Signifikanzniveaus im Bereich von 5% (p < 0,05) und 1% (p < 0,01) gearbeitet.

Aber was genau heißt das? Wie geschrieben nur, dass ein Zusammenhang bzw. ein Unterschied zwischen Gruppen mit sehr, sehr hoher Wahrscheinlichkeit nicht zufallsbedingt sind.

Es sagt aber nichts darüber aus, wie hoch der Unterschied ist. Das macht auch folgende Begebenheit deutlich: Je größer die Stichprobengruppe ist, desto schwächere Effekte werden signifikant.

Jetzt könnte man sich denken, man gibt einfach zum Beispiel bei Gruppenunterschieden die Mittelwerte oder die Mittelwertdifferenzen an. Problem ist, die sagen auch nichts. Nicht wirklich zumindest. Auch das ist leicht zu erklären, weil hier die Skalierung der eine Rolle spielt. Reicht eine Skala zum Beispiel von 0 bis 1, dann ist ein Mittelwertsunterschied von 0,5 zwischen zwei Gruppen ziemlich groß. Reicht eine Skala dagegen von 0 bis 10, dann ist ein Mittelwertsunterschied von 0,5 ziemlich klein.
Hinzu kommt die Frage, wie stark die Gruppen in sich verschieden sind. Je breiter die untersuchten Gruppen innerhalb streuen, desto kleiner wird zugleich der Einfluss des untersuchten Unterschieds bei gleich großem beobachteten Unterschied.

Für all das gibt es eine Lösung, jene heißt "Effektstärke". Jene wird für mein Empfinden erstaunlich selten angegeben. Über lange Zeit brauchte man zusätzlich zu diversen gebräuchlichen Statistikprogrammen weitere externe Software, um jene zu berechnen. Dabei, das ist zumindest meine Meinung, ist die Effektstärke eigentlich die viel interessantere Größe als die Signifikanz. Etwas kann hochgradig signifikant, also die berühmten p < 0,001 sein, und dennoch nur eine so geringe Effektstärke haben, dass der beobachtete Unterschied eigentlich komplett vernachlässigbar ist. Umgekehrt kann sich hinter demselben Signifikanzniveau ein riesiger Unterschied verbergen. Ich war selbst immer wieder mal überrascht, als ich da Daten durchgerechnet habe. Effektstärke ist nämlich, wie der Name schon verrät, eine Angabe darüber, wie groß der gemessene Effekt ist. Und das ist, sobald ein Ergebnis erstmal signifikant ist, am interessantesten zu wissen.

Das ist meiner Meinung nach auch ein Qualitätsmerkmal von Studien: Wenn die Effektstärken angegeben werden.

Keine Kommentare:

Kommentar veröffentlichen