Czy naukowcy nie umieją statystyki?
Mózgi Homo sapiens nie lubią statystyki. Cyferki, wzory - to wszystko nie przemawia dobrze dobrze do umysłu, który jest na podstawowym poziomie narzędziem przetrwania i przekazania genów dalej. Na szczęście większości z nas to nie przeszkadza - dokładne liczenie prawdopodobieństw ma raczej mały wpływ na moje życie.
Niestety, naukowcy i lekarze są ludźmi. I nie wydaje się to za dobrze działać na naukę.
W badaniu 70 wykładowców psychologii[1], mieli oni stwierdzić, które z 6 zdań na temat wartości p są prawdziwe. Wszystkie były falszywe, ale średnio 2.5 zostało uznane za prawdziwe, a 97% popełniło przynajmniej 1 błąd. Co gorsza, badanie zostało zreplikowane z podobnymi wynikami[2].
Można powiedzieć - „hola, hola, poważny naukowiec zatrudni zawodowego statystyka, by zajął się obliczeniami”.
Haller, Heiko i Krauss pokazali[3], tym samym zestawem 6 fałszywych zdań, że wykładowcy statystyki też błędnie je interpretują - 80% z nich popełniło przynajmniej jeden błąd (w porównaniu do 97% wykładowców psychologii i 100% studentów). Z kolei Lecoutre i Poitevineuau pokazali[4], że dotyczy też zawodowych statystyków pracujących dla firm farmaceutycznych.
Rezydenci ginekologii z odpowiadaniem na pytania prawda/fałsz o hipotezę zerową radzą sobie gorzej niż rzut monetą [5]. W tym samym badaniu było też takie zadanie:
10 na 1000 kobiet ma nowotwór piersi. Z tych dziesięciu kobiet, 9 ma pozytywny wynik mammogramu. Spośród 990 kobiet bez nowotworu, 89 ma pozytywny wynik testu. Jeśli kobieta ma pozytywny wynik testu, jaka jest szansa, że ma nowotwór piersi? Wybierz najbliższą prawdzie odpowiedź.
- Szanse, że ta kobieta ma nowotwór piersi to około 90%
- Szanse, że ta kobieta ma nowotwór piersi to około 81%
- Z 10 kobiet z pozytywnym mammogramem 9 ma nowotwór piersi
- Z 10 kobiet z pozytywnym mammogramem jedna ma nowotwór piersi
- Szanse, że ta kobieta ma nowotwór piersi to około 1%
Z tym zadaniem poradziło sobie tylko 26% rezydentów. Rzut kostką dałby 20%.
Ciekawostka: mężczyźni oceniali swoją znajomość statystyki na lepszą niż kobiety, ale odpowiadali tak samo źle.
Znowu - można powiedzieć, że „chwila, przecież mamy peer-review. Nawet jeśli naukowiec zrobi błędy w badaniu, ktoś je zauważy w procesie recenzji”.
Hoekstra[6] w ponad połowie zbadanych artykułów z Psychonomic Bulletin & Review odkrył, że wynik bez istotności statystycznej był
interpretowany jako brak efektu, a w 20% p < 0.05
było traktowane jako pewność istnienia efektu. Co gorsza, w badaniu też Rinka Hoekstry z 2014, wykładowcy poradzili sobie gorzej z z
interpretowaniem niż studenci[7].
Przypisy #
[1] Oakes 1986;
[2] Falk, Greenbaum 1995
[3] Haller, Heiko & Krauss, Stefan. (2002). Misinterpretations of Significance: A Problem Students Share with Their Teachers? [4] The Significance Test Controversy Revisited
[5] Anderson BL, Williams S, Schulkin J. Statistical literacy of obstetrics-gynecology residents. J Grad Med Educ. 2013 Jun;5(2):272-5. doi: 10.4300/JGME-D-12-00161.1. PMID: 24404272; PMCID: PMC3693693.
[6] Hoekstra R, Finch S, Kiers HA, Johnson A. Probability as certainty: dichotomous thinking and the misuse of p values. Psychon Bull Rev. 2006 Dec;13(6):1033-7. doi: 10.3758/bf03213921. PMID: 17484431.
[7] Hoekstra R, Morey RD, Rouder JN, Wagenmakers EJ. Robust misinterpretation of confidence intervals. Psychon Bull Rev. 2014 Oct;21(5):1157-64. doi: 10.3758/s13423-013-0572-3. PMID: 24420726.