Frage:
Hypothesentest: Fisher vs. Popper vs. Bayes
Stefan
2015-12-06 13:27:37 UTC
view on stackexchange narkive permalink

Ich versuche meine Frage kurz zu machen. Ich bin mit Poppers Philosophie sowie mit statistischen Hypothesentests nach Fisher und Neyman-Pearson vertraut. Ich bin mit dem Bayes'schen Ansatz nicht so vertraut, außer dass diese Methodik durch die Einbeziehung vorheriger Wahrscheinlichkeiten definiert wird, die die posterioren Wahrscheinlichkeiten beeinflussen. Sehr oft stelle ich fest, dass das Testen von Nullhypothesen mit Popper verbunden ist, obwohl dies das Ergebnis der Arbeiten von Fisher und Neyman-Pearson ist. Wenn ich Poppers Version des Hypothesentests richtig verstanden habe, sagt er, dass man aufrichtig versuchen sollte, Hypothesen zu widerlegen - und ich bin mir ziemlich sicher, dass er die Nullhypothese em nicht gemeint hat > dass Fisher formuliert hat, sondern die Hypothese, die für uns von entscheidender Bedeutung ist. Abgesehen davon denke ich, dass der Zeitpunkt, zu dem Fisher die Nullhypothese einführte, einige Jahre war, bevor Popper seinen Bericht über Hypothesentests formulierte.

Frage 1 : Wenn mein Verständnis korrekt ist, ist diese Zusammenfassung nicht teilweise falsch?

J Sports Sci. 2013; 31 (9): 919 & ndash; 20. doi: 10.1080 / 02640414.2012.753636. Epub 2012 Dec 19.

Testen der Nullhypothese: das vergessene Erbe von Karl Popper?

Wilkinson M.

Zusammenfassung Die Prüfung der Nullhypothese ist ein grundlegender Aspekt der wissenschaftlichen Methode und basiert auf der Fälschungstheorie von Karl Popper. Beim Testen von Nullhypothesen wird deduktives Denken verwendet, um sicherzustellen, dass die Wahrheit der Schlussfolgerungen unwiderlegbar ist. Im Gegensatz dazu nutzt der Versuch, die neuen Tatsachen auf der Grundlage des Testens der experimentellen oder Forschungshypothese zu demonstrieren, induktives Denken und ist anfällig für das Problem der von David Hume im 18. Jahrhundert beschriebenen Annahme der Einheitlichkeit der Natur. Trotz dieses Problems und der gut dokumentierten Lösung durch Poppers Fälschungstheorie sind die meisten Veröffentlichungen immer noch so geschrieben, dass sie darauf hindeuten, dass die Forschungshypothese getestet wird. Dies widerspricht der anerkannten wissenschaftlichen Konvention und zeigt möglicherweise ein schlechtes Verständnis für die Anwendung herkömmlicher Ansätze zur signifikanzbasierten Datenanalyse. Unsere Arbeit sollte von Vermutungen und versuchten Fälschungen getrieben bleiben, so dass immer die Nullhypothese geprüft wird. Das Schreiben unserer Studien sollte deutlich machen, dass wir tatsächlich die Nullhypothese testen und den etablierten und akzeptierten philosophischen Konventionen der wissenschaftlichen Methode entsprechen.

Frage 2 stark>: Gibt es Aufzeichnungen darüber, was Poppers Position in Bezug auf Nullhypothesentests (nach Fisher und Neyman-Pearson) und den Bayes'schen Ansatz als Werkzeuge zum Erwerb von Wissen in den Wissenschaften war?

Frage 3 : Gibt es Aufzeichnungen über die Kommunikation zwischen Popper und Fisher in Bezug auf Hypothesentests?

Die Frage entstand offenbar aus der Diskussion dieser Antwort auf Cross Validated SE http://stats.stackexchange.com/questions/185023/why-is-the-null-hypothesis-often-sought-to-be-rejected/185052# 185052 Die Antwort scheint der Website von Chong Ho zu folgen. http://www.creative-wisdom.com/computer/sas/hypothesis.html
@Conifold, ja das stimmt. Ich hatte immer Probleme, Popper in Zusammenhang mit dem Testen von Nullhypothesen zu bringen, da Popper die Hypothese fälschen wollte, die für uns bedeutsam und wichtig ist, und für mich repräsentiert die Null dies nicht, es ist die alternative Hypothese. In Ihrem zweiten Link heißt es außerdem: "Da wir nur mit der Nullhypothese beginnen, ist das Testen von Hypothesen keine faire Anwendung der popperianischen Fälschungslogik." Ich denke, ich bin mit meiner Wahrnehmung nicht ganz fertig. Aber was denkst du dann über die Zusammenfassung, die ich zitiert habe?
@Conifold, übrigens danke für Ihre ausführliche Antwort! Ich schätze es.
Ich habe es in der Antwort deutlicher gemacht, siehe Bearbeiten.
Verwandte: http://www.stat.ualberta.ca/~wiens/stat665/TAS%20-%20testing.pdf
Drei antworten:
Conifold
2015-12-08 08:31:12 UTC
view on stackexchange narkive permalink

Laut Mayo hat Popper keine statistischen Tests benannt, die seine Logik der Fälschung umsetzen, oder wie Hilborn und Mangel es ausdrückten: "Popper lieferte die Philosophie, und Fisher, Neyman und Kollegen lieferten die Statistiken", siehe Referenzen in Quinn und Keoughs experimentelles Design und Datenanalyse für Biologen (Kap. 3). Popper betrachtete die Wahrscheinlichkeit etwas abweisend, weil " wir als Wissenschaftler nicht nach höchstwahrscheinlichen Theorien suchen, sondern nach Erklärungen, dh nach mächtigen und unwahrscheinlichen Theorien ". Trotzdem ist die von ihm 1954 vorgeschlagene Bestätigungsmaßnahme überraschend bayesianisch (überraschend, weil der Bayesianismus normalerweise mit einer abgelehnten Induktion von Popper verbunden ist).

Fisher betonte, dass wir eine Theorie niemals beweisen, sondern nur widerlegen können, bereits wieder 1925, vor Poppers Logik der Forschung (1934), aber er setzte dieses Prinzip auf eine ziemlich eigenartige Weise um. Anstatt die tatsächliche Hypothese direkt zu testen, schlug Fisher vor, ihre "Negation", die Nullhypothese, zu testen. Wenn die Nullhypothese nach dem Test als unwahrscheinlich herauskommt, hat unsere tatsächliche Hypothese "den Test überlebt".

Warum so ein Umweg? Da der Ansatz von Fisher nicht direkt liefern kann, was ein Wissenschaftler tatsächlich will, $ p (H | D) $ span>, ist die Wahrscheinlichkeit der Hypothese angesichts der Testdaten. Es liefert nur den umgekehrten $ p (D | H) $ span>, die Wahrscheinlichkeit von Daten, wenn die Hypothese gegeben ist, ist wahr, dies ist der berühmte $ p $ span> -Wert, auch bekannt als statistische Signifikanz. In seiner Kritik von 1952 hat Neyman die Fischertests wie folgt umrahmt, wenn $ p (D | H) $ span> niedrig ist " was wir eigentlich sind beobachtet wäre ein Wunder. Wir glauben heutzutage nicht an Wunder und deshalb glauben wir nicht daran, dass H wahr ist ". Leider zeigt eine einfache Berechnung, dass $ p (H | D) = \ frac {p (D | H)} {p (D)} p (H) $ span> und die Beziehung des $ p $ span> -Werts zur Wahrscheinlichkeit des Interesses hängt von der vorherigen Wahrscheinlichkeit $ p (H) $ ab span>, auch bekannt als "Basisrate", und Zuverlässigkeit der Daten $ p (D) $ span>.

Fisher war sich bewusst, dass sein Argument "keine Wunder" für die Nullhypothesen-Signifikanzprüfung (NHST) unter bestimmten Umständen zusammenbrechen kann (siehe auch den Basisratenfehler ), insbesondere wenn es sich um Hypothesen mit geringer Wahrscheinlichkeit handelt, und betonte, wie wichtig es ist, die richtige Art von Hypothesen auszuwählen.

Eine andere Art von Signifikanztests, die die von Neyman und Pearson vorgeschlagene Null- und die "alternative" Hypothese beinhalten, ist dem "hoch entwickelten Falsifikationismus" von Lakatos wohl näher als dem von Popper. Lakatos unterscheidet sich von Popper in zwei wesentlichen Punkten: Er erlaubt Hilfshypothesen, eine Theorie im Hinblick auf einen "Fälschungstest" zu "retten", und er ermutigt, eine "gefälschte" Theorie beizubehalten, bis eine klare Alternative entsteht. Dementsprechend setzt das Neyman-Pearson-Verfahren eine Unterscheidung zwischen der Null- und der "alternativen" Hypothese voraus, die im Gegensatz zu Fischertests, die ein (möglicherweise fehlerhaftes) Auf- oder Ab-Urteil liefern, von Interesse ist. Wie bei Popper entwickelten Neyman und Pearson ihr Verfahren lange bevor Lakatos seine Methodik formulierte. Trotz ihrer Unterschiede kamen Fisher und Neyman in den 1970er Jahren mehr oder weniger zu einer Einigung, und beide Arten von Signifikanztests wurden zum "Standardverfahren".

In jüngerer Zeit gab es eine Art Aufstand gegen Signifikanztests von beiden Arten, insbesondere in den Soft Sciences. Laut Prevost (S.25) hat die APA Task Force für statistische Inferenz 1999

" ernsthaft darüber nachgedacht, Signifikanztests aus allen APA-Zeitschriften zu verbannen ... Obwohl sie beschlossen, dies nicht zu tun, empfahlen sie dennoch, weniger Signifikanztests zu verwenden, und schlugen vor, nützlichere Methoden zu verwenden (z. B. Effektgrößen, Konfidenzintervalle, Bayes'sche Schätzungen, ...) "[APA ist American Psychological Association].

Eine häufige Kritik ist, dass $ p $ span> -Werte für die Entscheidungsfindung über Forschung wenig tatsächliche "Bedeutung" haben und insbesondere, dass Signifikanztests nicht wirklich implementiert werden die "Logik der Fälschung". Siehe Nickerson und Giere für gegensätzliche Standpunkte. Die Wurzel des Problems scheint zu sein, dass $ p (H | D) $ span> nicht direkt berechnet werden kann, so dass eine direkte Implementierung der Popper-Philosophie in probabilistischen Kontexten möglicherweise nicht möglich ist . Als Alternative wird häufig die Bayes'sche Folgerung vorgeschlagen.

Wilkinson übertrifft seine Identifizierung von NHST mit Poppers Fälschung, und seine Kritik an Induktionsmethoden hängt von dieser Überreichweite ab. Die traditionelle Position ist diffuser. Es wird vorgeschlagen, dass NHST die Formulierung fälschbarer Hypothesen fördert und diese auf der Grundlage von Testdaten bewertet, nicht dass dies die statistische Umsetzung des Popper-Kriteriums darstellt. Fischers deduktive Argumentation führt von der Nullhypothese zum $ p $ span> -Wert. Die Interpretation der letzteren zur Beurteilung der tatsächlichen Hypothese und die Formulierung der Nullhypothese selbst hängen jedoch von pragmatischen Überlegungen ab, die im Wesentlichen induktiv sind. Eine Bayesianerin würde einwenden, dass in ihrem Ansatz diese pragmatischen Überlegungen zumindest durch Zuweisung früherer Wahrscheinlichkeiten usw. quantifiziert werden, während sie in NHST nicht sichtbar sind. Obwohl es gute Argumente dafür gibt, NHST der Bayes'schen Folgerung vorzuziehen, gehört Wilkinson nicht dazu.

Hervorragende Antwort! Vielen Dank, dass Sie sich so viel Mühe gegeben haben.
* Trotz ihrer Unterschiede kamen Fisher und Neyman in den 1970er Jahren mehr oder weniger zu einer Einigung, und beide Arten von Signifikanztests wurden zum "Standardverfahren". * Können Sie eine Quelle dafür angeben, insbesondere ein Zitat von Fisher? Ich finde diese Behauptung schwer zu glauben.
RA Fisher starb 1962 im Alter von 72 Jahren. Jerzy Neyman lebte bis 1981. Obwohl sie sich nach Fischers Tod über nichts einig waren, geht aus Standardtexten der Zeit hervor, dass viele Statistiker die Ansichten von Fisher und Neyman ausreichend für den Unterricht in Einklang gebracht hatten. Es gibt Unterschiede in ihren Schriften, die es noch wert sind, studiert zu werden, aber selten in Einführungskursen unterrichtet werden.
Mauro ALLEGRANZA
2015-12-06 17:51:46 UTC
view on stackexchange narkive permalink

In Popper 's The Logic of Scientific Discovery (1934 - 1. Engl.ed.1959) finden Sie CH.VIII: Probability und mehrere Anhänge , die der Wahrscheinlichkeitstheorie gewidmet sind.

Bayes [Bayes, Th. 144, 168n, 288–9] und Fisher [Fisher, R.A. 18&n, 326, 334, 384, 394n, 403] werden in den Index of Names aufgenommen, auch wenn Keynes und von Mises eine herausragende Rolle spielen.

Das grundlegende "Axiom" von Poppers Initiale Die Ansicht ist, dass die Wahrscheinlichkeit das Problem der Induktion nicht lösen kann:

Ich glaube nicht, dass es möglich ist, eine zufriedenstellende Theorie dessen zu erstellen, was traditionell als "Induktion" bezeichnet wird. Im Gegenteil, ich glaube, dass eine solche Theorie - ob sie klassische Logik oder Wahrscheinlichkeitslogik verwendet - aus rein logischen Gründen entweder zu einem unendlichen Rückschritt führen oder mit einem aprioristischen Induktionsprinzip arbeiten muss, einem synthetischen Prinzip, das nicht empirisch getestet werden kann

Wissenschaftliche Theorien können niemals "gerechtfertigt" oder verifiziert werden. Trotzdem kann eine Hypothese $ A $ unter bestimmten Umständen mehr als eine Hypothese $ B $ erreichen - vielleicht weil $ B $ durch bestimmte Beobachtungsergebnisse widerlegt und daher von ihnen "gefälscht" wird, während $ A $ dies ist nicht gefälscht; oder vielleicht, weil mit Hilfe von $ A $ eine größere Anzahl von Vorhersagen abgeleitet werden kann als mit Hilfe von $ B $. Das Beste, was wir über eine Hypothese sagen können, ist, dass sie sich bisher bewährt hat und erfolgreicher war als andere Hypothesen, obwohl sie im Prinzip niemals gerechtfertigt, verifiziert oder sogar nachgewiesen werden kann wahrscheinlich. Diese Bewertung der Hypothese beruht ausschließlich auf deduktiven Konsequenzen (Vorhersagen), die aus der Hypothese gezogen werden können. Es ist nicht einmal erforderlich, die Induktion [ Seite 316-17] zu erwähnen.

Vielen Dank, dass Sie sich die Zeit genommen haben, meine Frage zu beantworten (d. H. Frage 2). Ich kenne diese Textpassagen, aber ich hatte gehofft, ein bisschen mehr Informationen zu sammeln. Aber vielleicht ist das alles, was es ist.
@Stefan - Sie sind herzlich willkommen :-) Auf Popper und Wahrscheinlichkeit können Sie [Propensity Probability] (https://en.wikipedia.org/wiki/Propensity_probability) und [Interpretations of Probability] (http: //plato.stanford) sehen. edu / Einträge / Wahrscheinlichkeitsinterpretation / # ProInt).
Uve Sciencecovskij
2016-10-06 19:52:59 UTC
view on stackexchange narkive permalink

Bitte erlauben Sie eine Korrektur: Ich denke, Ihre Aussage "er sagt, dass man aufrichtig versuchen sollte, Hypothesen zu widerlegen - und ich bin mir ziemlich sicher, dass er nicht die von Fisher formulierte Nullhypothese meinte, sondern die Hypothese, die von entscheidender Bedeutung ist zu uns "ist nicht wirklich richtig. Genau so hätte Fisher die "Nullhypothese" beschrieben. Für Fisher gibt es nur eine Art von Hypothese: die zu testende Hypothese, a.k.a. die Nullhypothese. Die von Neyman und Pearson eingeführte Unterscheidung zwischen Null- und Alternativhypothese wurde von Fisher nie akzeptiert (auch Conifolds Aussage "Anstatt die eigentliche Hypothese direkt zu testen, schlug Fisher vor, ihre 'Negation', die Nullhypothese, zu testen, wenn die Nullhypothese herauskommt Als unwahrscheinlich nach dem Test, dann beschreibt unsere tatsächliche Hypothese 'den Test überlebt' "den Ansatz von Fisher nicht richtig)

Wenn Sie Fisher sorgfältig lesen, wird die häufig verwendete Version der" Nullhypothese "(null, keine Wirkung, "nur zufällige Variation" und ähnliches) ist nicht das, worauf sich Fisher bezog. Die zentrale Bedeutung eines Tests für statistische Signifikanz ist seine Fähigkeit, Ergebnisse zu erzielen, die nach Fisher ("The Design of Experiments", 2. Aufl., 1937) in zwei Klassen mit unterschiedlichen Interpretationen unterteilt werden können:

“diejenigen, die eine signifikante Abweichung von einer bestimmten Hypothese aufweisen; […] Und […] Ergebnisse, die keine signifikante Abweichung von dieser Hypothese zeigen. Diese Hypothese […] ist wiederum charakteristisch für alle Experimente. […] [W] Wir können von dieser Hypothese als der „Nullhypothese“ sprechen, und es sollte beachtet werden, dass [es] im Verlauf des Experimentierens niemals bewiesen oder etabliert, aber möglicherweise widerlegt wird. […] Wenn behauptet würde, dass das Thema in ihren Urteilen niemals falsch sein würde, sollten wir wieder eine genaue Hypothese haben, und es ist leicht zu erkennen, dass diese Hypothese durch einen einzigen Fehler widerlegt, aber niemals bewiesen werden könnte durch eine endliche Menge an Experimenten. Es ist offensichtlich, dass die Nullhypothese genau sein muss, dh frei von Unbestimmtheit und Mehrdeutigkeit, da sie die Grundlage für das „Verteilungsproblem“ liefern muss, dessen Lösung der Signifikanztest ist . Eine Nullhypothese kann tatsächlich beliebige Elemente enthalten und tut dies in komplizierteren Fällen häufig. “ (S.18-20; Hervorhebung hinzugefügt)

Bitte beachten Sie, dass das einzige Unterscheidungsmerkmal einer Nullhypothese, wie sie von Fisher charakterisiert wird, die Fähigkeit ist, die Ergebnisse eines Experiments in zwei sich gegenseitig ausschließende Klassen (unterstützende und widersprüchliche Fälle) zu unterteilen und dies zu tun muss es genau sein. Das ist alles. Es wird nicht davon ausgegangen, dass eine Nullhypothese das Fehlen jeglicher Auswirkungen angeben muss, wie die meisten statistischen Ressourcen - Websites, Artikel und Lehrbücher - behaupten. Es ist auch wichtig, dass es, wie bereits erwähnt, in Fischers Ansatz keine "alternative" Hypothese gibt, die häufig mit der "Forschungshypothese" gleichgesetzt wird, die durch Ablehnung der Null gestützt werden soll. In Fischers Ansatz ist die "Nullhypothese" die Hypothese, die der Forscher testen möchte. Es kann das Fehlen eines Effekts oder seine Existenz angeben, und solange es genau ist, kann es getestet werden. Um jedoch eine Nicht-Null-Nullhypothese angemessen zu testen, müssen die üblicherweise angewendeten Tests (z. B. t-Tests) durch Versionen ersetzt werden, die den Effekt (die Größe) widerspiegeln. Im Fall des t-Tests könnte jeder Effekt mit einer bestimmten nicht zentralen Version dieses Tests getestet werden (der dieselbe Verteilung verwendet, die für Leistungsberechnungen im Neyman-Pearson-Ansatz verwendet wird). Ein signifikantes p würde - wie üblich - anzeigen, dass die Daten offensichtlich nicht mit der Vorhersage auf der Grundlage der Nullhypothese (unserer Forschungshypothese!) Entsprechen, die üblicherweise als Ablehnung der Null angesehen wird. So interpretiert verschwindet zumindest die Mehrheit (wenn nicht alle) der üblicherweise diskutierten Mängel von "NHST". Darüber hinaus sieht diese Interpretation von Signifikanztests wie eine statistische Version des Fälschungsprinzips von Popper oder zumindest als ein eng damit verbundenes statistisches Argument aus.

Die Verwirrung vieler Benutzer statistischer Methoden (die auch die - noch andauernde - Diskussion über NHST, "Nullhypothesen-Signifikanztests" in den "weichen" oder - besser - schwachen "Wissenschaften" [wie Psychologie] vorangetrieben hat) ist wahrscheinlich aufgrund der Verwechslung zweier unterschiedlicher Ansätze zum Testen von Hypothesen - Fischers Signifikanztest auf der einen Seite und Neyman-Pearsons Theorie der statistischen Entscheidung auf der anderen Seite - zu einem "inkonsistenten Hybrid, den jeder anständige Statistiker ablehnen würde" (Gigerenzer, 1993). Eine prototypische Studie, zumindest in der Psychologie, funktioniert folgendermaßen: Der Forscher geht davon aus, dass es einen Effekt gibt. Er / sie nimmt eine mittlere Effektgröße an (Cohens d = 0,5; wahrscheinlich schlechte Theorie, aber trotzdem ...) und berechnet die Stichprobengröße für diesen angenommenen Effekt, um sensibel angezeigt zu werden, beispielsweise mit Power = 0,8 (dies ist eine Art von Neyman-Pearson). Dann sammelt er / sie Daten, führt einen Standard- (zentralen) t- oder F-Test durch, setzt eine Strohmann-Nullhypothese von "keine Wirkung" und wenn p <0.05, lehnt er / sie die Null ab (was in Ordnung ist; dies ist Fisher, testet aber nicht die tatsächliche Hypothese) und akzeptiert A ( was nicht in Ordnung ist , da jede von null abweichende Effektgröße durch Ablehnung unterstützt wird die Null, sofern nicht alle anderen Alternativen ausgeschlossen werden können). Diese letztere Schlussfolgerung ist weder Fisher noch Neyman-Pearson, sie ist einfach nicht korrekt.

Zusammenfassend denke ich, dass die Zusammenfassung, auf die Sie sich beziehen, eher einer der seltenen Fälle ist, in denen das Wesen von Das Testen von Hypothesen (auf eine Weise, die von Fisher akzeptiert worden wäre) wurde mehr oder weniger korrekt extrahiert. Dennoch gibt es eine gewisse Ungenauigkeit in der Zusammenfassung, da davon ausgegangen wird, dass die Null- und die Forschungshypothese unterschiedliche Dinge sind. Tatsächlich ist es sowohl für Popper als auch für Fisher die Forschungshypothese, die getestet und gegebenenfalls zurückgewiesen werden muss. Was eigentlich ist Fischers Nullhypothese.

In Bezug auf Ihre dritte Frage: In "Logik der Forschung" bezieht sich Popper manchmal auf das Wahrscheinlichkeitskonzept von Fisher, nicht jedoch auf Signifikanztests (oder auf die Neyman-Pearson-Theorie). In Bennetts (1990) "Statistical Inference and Analysis - Selected Correspondence of R.A. Fisher" ist Popper nicht als Korrespondent aufgeführt.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...