Statistik nimmt den Forschern nicht das Denken ab
Wofür benötigen Forscher den p-Wert und die statistische Signifikanz überhaupt?
Norbert Hirschauer: Das ist am leichtesten mit einem Beispiel zu erklären: Nehmen wir an, Sie wollen die Einkommensunterschiede von Männern und Frauen in der Bevölkerung von Halle untersuchen. Dafür haben Sie eine Zufallsstichprobe von 25 Männern und 25 Frauen gezogen. In dieser Stichprobe finden Sie eine Differenz von vier Euro; Männer verdienen im Durschnitt 22 Euro und Frauen 18 Euro pro Stunde. Es ist klar, dass wir diese Differenz erstmal nur in der Stichprobe gefunden haben und mit diesem Schätzwert noch nicht viel über die Grundgesamtheit wissen. Besser wäre es, zum Beispiel 25.000 Menschen oder gleich alle Erwerbstätigen in Halle zu fragen. Eine Vollerhebung ist aber in der Regel nicht möglich. Um eine Hilfestellung für den Rückschluss von der kleinen Stichprobe auf die Gesamtheit zu bekommen, fragt der p-Wert: Wie wahrscheinlich ist es, vier Euro oder mehr als Differenz zu finden, wenn ich sehr häufig weitere Zufallsstichproben der gleichen Größe ziehen würde und wenn ich annehmen würde, dass in der Grundgesamtheit gar kein Unterschied da ist?
Und das sagt der p-Wert?
Ja. Der p-Wert ist eine statistische Größe, die man aus einer Stichprobe ableitet. Er greift auf den in der Stichprobe gefundenen Schätzwert und den Stichprobenfehler zurück, in unserem Beispiel also die Streuung der bei wiederholten Zufallsziehungen jeweils gefundenen Einkommensdifferenzen. Bei einem Wert von weniger als fünf Prozent spricht man landläufig von statistischer Signifikanz.
Und was sagt das dann aus, wenn in einer Studie ein „statistisch signifikanter Effekt“ gefunden wurde?
Sieht man von randomisierten Experimenten ab, auf die ich hier nicht näher eingehe, sagt er genau das aus, was ich gerade beschrieben habe. Der p-Wert ist keine Antwort auf die Frage, wie es in der Grundgesamtheit oder in der Realität aussieht. Es gibt keinen automatischen Schluss, der aus den Daten herausfließt. Wenn Sie die Einkommensunterschiede nur bei jeweils zehn zufällig ausgewählten Männern und Frauen in Halle untersuchen, dann glauben vermutlich die wenigsten daran, dass das aussagekräftig ist. Die stichprobenbedingte Ungenauigkeit der Schätzung wäre höher. Und das würde sich im p-Wert widerspiegeln.
Wenn man auf der Grundlage von begrenzten Daten eine Aussage über die Allgemeinheit machen möchte, ist das ein Induktionsschluss – ein Schluss mit einer gewissen Unsicherheit. Dieser Schluss ist eigenständig durchzuführen, das nimmt einem der p-Wert nicht ab. Hier muss man als Forscher überlegen, was man im Lichte der einzelnen Studie, der Ungenauigkeit stichprobenbasierter Größen und des vorhandenen Vorwissens über die Realität aussagen kann.
Was ist das Problematische daran, wie der p-Wert aktuell verwendet wird?
Das ist vor allem ein sprachliches Problem: Wenn man sagt, dass etwas statistisch signifikant ist oder nicht, wird diese willkürliche Zweiteilung als Ersatz genommen – auch von Wissenschaftlern – für einen vernünftigen Induktionsschluss. Signifikant heißt dann auf einmal automatisch, dass es einen Effekt gibt, und nicht-signifikant, dass es keinen gibt. Beide Schlussfolgerungen sind unzulässig, geradezu übermütig.
Ein weiteres Problem: Der p-Wert basiert auf dem Gedankenexperiment der wiederholten Zufallsziehung. Viele empirische Arbeiten basieren aber gar nicht auf einer Zufallsstichprobe. Das Wort sagt sich so schnell, aber wenn wir uns zum Beispiel die Menschen anschauen, die freiwillig an einer Studie teilnehmen, dann ist das eine spezielle Teilgruppe – und keine zufällige Auswahl.
Viele wissenschaftliche Fachjournale akzeptieren aber nur Studien, die „statistisch signifikante“ Ergebnisse produziert haben.
Ja, das ist so. Und das ist einer der Hauptkritikpunkte der sich seit über zehn Jahren intensivierenden Debatte um die Signifikanz und den p-Wert. Jeder Statistiker weiß, dass wir viele ordentlich gemachte Studien mit ihren jeweiligen Schätzungen brauchen, um ein zutreffendes Bild der realen Welt zu bekommen. Dafür müsste man alle verfügbaren Studien unabhängig von ihrem p-Wert berücksichtigen. Jede Studie hat ein Ergebnis. Denken Sie an die stichprobenbedingte Ungenauigkeit bezüglich der Einkommensunterschiede. Ich müsste den Durchschnitt über alle Studien bilden oder, genauer gesagt, eine Metaanalyse machen. Wenn ich statistisch nicht signifikante Ergebnisse ausschließe, weil die Journale sie nicht wollen oder die Autoren sie erst gar nicht einreichen, verzerre ich das Bild zwangsweise nach oben. Die vermuteten Effekte werden überschätzt, weil über die sogenannten nicht signifikanten Ergebnisse gar nicht berichtet wird.
Ist das Problem in der Wissenschaft bekannt und wird es als solches wahrgenommen? Nehmen Studien mit p-Wert ab?
Das weiß ich nicht. Das würde ich bei Gelegenheit aber gern für mein eigenes Fach – die Agrarökonomik – untersuchen. Seit den 1950er Jahren hat sich insgesamt die Praxis durchgesetzt, nur statistisch signifikante Ergebnisse zu veröffentlichen. Seitdem gab es immer wieder Wellen der Kritik, die richtigstellten, welche Begrenzung der p-Wert hat. Nach meiner Wahrnehmung kamen diese Wellen im Abstand von 20 Jahren, haben aber bisher wenig bewirkt.
Zuletzt erschien im März 2019 in „Nature“ ein Aufruf mit der Überschrift „Retire statistical significance“ (Schafft die statistische Signifikanz ab), der von über 800 Forscherinnen und Forschern unterschrieben wurde. In der Debatte danach zeigte sich ein differenziertes Bild: Nicht alle wollen den p-Wert gänzlich abschaffen, weil er eben bei richtiger Interpretation ein kleines Hilfsmittel für den Induktionsschluss sein kann. Aber man will weg von dieser willkürlichen Zweiteilung in statistisch signifikante und statistisch nicht signifikante Ergebnisse, die sprachlich fast zwangsläufig Fehlinterpretationen hervorruft.
Die große Frage, was wir stattdessen machen, bleibt. Da beobachte ich eine gewisse Ratlosigkeit und auch Widerstand gegen die Aufgabe des „Paradigmas“ des Signifikanztestens. Einige Journale im medizinischen Bereich haben als Reaktion ihre Leitfäden überbearbeitet. In Deutschland, speziell in den Wirtschafts- und Sozialwissenschaften, sind die Reaktionen bisher eher verhalten.
„Die Effekte werden überschätzt, weil über die nicht signifikanten Ergebnisse gar nicht berichtet wird.“ - Norbert Hirschauer
Woran liegt das?
Mein Eindruck ist, dass es sehr schwer ist, wenn man sich angesichts einer langjährigen beruflichen Praxis und all dem, was man gelernt hat, eingestehen muss, dass vieles nicht richtig war. Da könnte ein Teil des Problems liegen. Ich würde das auch auf mich beziehen. In meinen früheren beruflichen Jahren habe ich auch empirische Studien mit dem p-Wert gemacht und diese – aus heutiger Sicht – fehlinterpretiert. Das Problem ist übrigens schon in Lehrbüchern angelegt: Ich habe erst kürzlich einen Artikel zu Statistikbüchern für Psychologen gelesen, nach dem fast 90 Prozent der untersuchten Lehrbücher identifizierbare, schwerwiegende Fehler enthalten. Viele Forscher sind ihr ganzes Studenten- und Berufsleben mit diesen Fehlern aufgewachsen.
Der wichtigste Grund ist aber vielleicht der, dass man statt der einfachen und scheinbar selbsterklärenden Signifikanzaussagen selbstkritisch diesen nie ganz eindeutigen Induktionsschluss machen muss. Da geht es darum, unter Berücksichtigung des vorhandenen Vorwissens darzulegen, welchen Wissensbeitrag die eigene Studie liefert und was man vernünftiger Weise bezüglich eines Sachverhalts insgesamt glauben soll. Das alles ist sehr mühsam.
Sind alle Studien falsch, die den p-Wert falsch interpretieren?
Nein, nicht zwingend. Man braucht eine gedankliche Trennung zwischen zwei Schritten: Man analysiert ein konkretes Datenmaterial und findet darin ein bestimmtes Ergebnis. In meiner kleinen Studie mit 50 Menschen habe ich eine Einkommensdifferenz zwischen Männern und Frauen von vier Euro gefunden. Jetzt kommt der nachgelagerte Schritt: Was sagt mir der in der kleinen Studie gefundene Wert über die mich eigentlich interessierende Forschungsfrage nach den Einkommensunterschieden in Halle? Diese Schrittfolge, erst die empirische Analyse, dann der Induktionsschluss, muss man deutlicher trennen.
Wie ließe sich diesem Problem beikommen? Sollte man den p-Wert verbieten?
Die Frage ist irreführend. Man kann ihn nicht verbieten. Journale sind selbst mit Wissenschaftlern besetzt und diese sind unabhängig. Führende Ökonomiejournale haben den p-Wert zum Beispiel nicht direkt verboten, aber die Hervorhebung der statistischen Signifikanz ausgeschlossen. Der p-Wert gehört also nicht mehr zu den Standardergebnissen. Und dann muss man hoffen, dass sich diese gute Praxis bei vielen Journalen durchsetzt. Der Prozess ist aber sehr langsam.
Was wären Alternativen für Wissenschaftlerinnen und Wissenschaftler?
Eine Möglichkeit wäre es, als Hilfsmitte für den Induktionsschluss die „signal to noise ratio“ auszuweisen. Das ist eine statistische Größe, bei der ich den Schätzwert, den ich in einer konkreten Zufallsstichprobe finde, ins Verhältnis setze zur Streuung über viele Stichproben hinweg.
Müssen wir also alle mit mehr Unsicherheit umgehen können?
Ja, das müssen wir. Mit mehr Unsicherheit und wir müssen auch mit den unrealistischen Erwartungen an die Forschung aufräumen, dass sich mit einer Studie herausfinden lässt, wie die Realität aussieht. Forscher müssen dem begegnen und aufhören, eine einzelne Studie zu überfrachten. Die Aussagekraft einer jeden Studie ist begrenzt. Eine größere Studie hat mehr Aussagekraft, trotzdem muss sie sich in das bisherige Wissen einordnen. Nur gute Studien liefern einen Wissenszuwachs.
Zum Beitrag in "Forschung & Lehre": Hirschauer, N., Becker, C. (2020): Paradigmenwechsel. Warum statistische Signifikanztests abgeschafft werden sollten. Forschung & Lehre 6/20: 510-512. Link (PDF)