Czy naukowcy nie umieją statystyki?

Mózgi Homo sapiens nie lubią statystyki. Cyferki, wzory - to wszystko nie przemawia dobrze dobrze do umysłu, który jest na podstawowym poziomie narzędziem przetrwania i przekazania genów dalej. Na szczęście większości z nas to nie przeszkadza - dokładne liczenie prawdopodobieństw ma raczej mały wpływ na moje życie.

Niestety, naukowcy i lekarze są ludźmi. I nie wydaje się to za dobrze działać na naukę.

W badaniu 70 wykładowców psychologii[1], mieli oni stwierdzić, które z 6 zdań na temat wartości p są prawdziwe. Wszystkie były falszywe, ale średnio 2.5 zostało uznane za prawdziwe, a 97% popełniło przynajmniej 1 błąd. Co gorsza, badanie zostało zreplikowane z podobnymi wynikami[2].

Można powiedzieć - „hola, hola, poważny naukowiec zatrudni zawodowego statystyka, by zajął się obliczeniami”.

Haller, Heiko i Krauss pokazali[3], tym samym zestawem 6 fałszywych zdań, że wykładowcy statystyki też błędnie je interpretują - 80% z nich popełniło przynajmniej jeden błąd (w porównaniu do 97% wykładowców psychologii i 100% studentów). Z kolei Lecoutre i Poitevineuau pokazali[4], że dotyczy też zawodowych statystyków pracujących dla firm farmaceutycznych.

Rezydenci ginekologii z odpowiadaniem na pytania prawda/fałsz o hipotezę zerową radzą sobie gorzej niż rzut monetą [5]. W tym samym badaniu było też takie zadanie:

10 na 1000 kobiet ma nowotwór piersi. Z tych dziesięciu kobiet, 9 ma pozytywny wynik mammogramu. Spośród 990 kobiet bez nowotworu, 89 ma pozytywny wynik testu. Jeśli kobieta ma pozytywny wynik testu, jaka jest szansa, że ma nowotwór piersi? Wybierz najbliższą prawdzie odpowiedź.

Szanse, że ta kobieta ma nowotwór piersi to około 90%

Szanse, że ta kobieta ma nowotwór piersi to około 81%

Z 10 kobiet z pozytywnym mammogramem 9 ma nowotwór piersi

Z 10 kobiet z pozytywnym mammogramem jedna ma nowotwór piersi

Szanse, że ta kobieta ma nowotwór piersi to około 1%

Z tym zadaniem poradziło sobie tylko 26% rezydentów. Rzut kostką dałby 20%.

Ciekawostka: mężczyźni oceniali swoją znajomość statystyki na lepszą niż kobiety, ale odpowiadali tak samo źle.

Znowu - można powiedzieć, że „chwila, przecież mamy peer-review. Nawet jeśli naukowiec zrobi błędy w badaniu, ktoś je zauważy w procesie recenzji”.

Hoekstra[6] w ponad połowie zbadanych artykułów z Psychonomic Bulletin & Review odkrył, że wynik bez istotności statystycznej był interpretowany jako brak efektu, a w 20% p < 0.05 było traktowane jako pewność istnienia efektu. Co gorsza, w badaniu też Rinka Hoekstry z 2014, wykładowcy poradzili sobie gorzej z z interpretowaniem niż studenci[7].

Przypisy #

[1] Oakes 1986;

[2] Falk, Greenbaum 1995

[3] Haller, Heiko & Krauss, Stefan. (2002). Misinterpretations of Significance: A Problem Students Share with Their Teachers? [4] The Significance Test Controversy Revisited

[5] Anderson BL, Williams S, Schulkin J. Statistical literacy of obstetrics-gynecology residents. J Grad Med Educ. 2013 Jun;5(2):272-5. doi: 10.4300/JGME-D-12-00161.1. PMID: 24404272; PMCID: PMC3693693.

[6] Hoekstra R, Finch S, Kiers HA, Johnson A. Probability as certainty: dichotomous thinking and the misuse of p values. Psychon Bull Rev. 2006 Dec;13(6):1033-7. doi: 10.3758/bf03213921. PMID: 17484431.

[7] Hoekstra R, Morey RD, Rouder JN, Wagenmakers EJ. Robust misinterpretation of confidence intervals. Psychon Bull Rev. 2014 Oct;21(5):1157-64. doi: 10.3758/s13423-013-0572-3. PMID: 24420726.