Muzyka odmładza

02Maj14

(takie znalazłem w draftach z czerwca 2012, położę tu. brakuje drugiej części, tj. o tym, kiedy można olać poprawkę na wielokrotne testowanie)

Grupa naukowców z uniwersytetu w Pensylwanii pokazała, jak wielki wpływ może mieć muzyka na …nasz wiek. W pierwszym eksperymencie grupie studentów puszczano piosenki dla dzieci. Skonfrontowani z dziecięcymi piosenkami studenci czuli się starzej. W drugim eksperymencie, odwrotnie, puszczano studentom piosenki dotyczące starości (takie jak „When I’m Sixty Four” Beatlesów). Tu wręcz okazało się, że po wysłuchaniu piosenek średnia wieku studentów jest niższa niż w grupie kontrolnej!

Praca ukazała się w prestiżowym czasopiśmie „Psychological Science”.

ResearchBlogging.org

Tak mogłoby wyglądać doniesienie prasowe oparte o pracę „False – Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant” (pomijając to, że byłoby lepiej napisane). Wszystko powyżej to prawda, ale kluczem do sukcesu naukowców z Pennstate była nieprawidłowa metodologia. Artykuł Simmonsa i kolegów pokazuje, jak przy pomocy powszechnie przyjętych praktyk byle co może okazać się statystycznie istotne. Na przykład różnica wieku w grupach eksperymentalnych (która oczywiście nie mogła wziąć się ze słuchania muzyki).

Kiedy przeprowadza się test statystyczny, zawsze jest szansa, że przez przypadek zauważymy różnicę między grupami eksperymentalnymi, choć w istocie takiej różnicy nie ma. Testy statystyczne są tak robione, żeby takie pechowe wypadki zdarzały się stosunkowo rzadko. Obierając próg istotności statystycznej na 0.05, oczekujemy, że średnio w jednym eksperymencie na dwadzieścia przeprowadzonych zauważymy coś pozornie istotnego statystycznie, choć w rzeczywistości różnicy nie będzie. Tego typu błąd nazywa się w statystyce błędem pierwszego rodzaju, a jego wynikiem są „wyniki fałszywie dodatnie” (false positives).

Niestety, to jest jak ruska ruletka z dwudziestokomorowym rewolwerem: każde wykonanie testu statystycznego może oznaczać kulę w ciemię; a jeśli eksperyment wykonujemy wiele razy, to prędzej czy później sami skończymy jako statystyka.

Gorzej: często w jednym eksperymencie mierzy się wiele rzeczy, i dla każdej z nich, oraz dla ich kombinacji przeprowadza się testy statystyczne. Zdarza się tak, że gdy test nie wykazał istotności statystycznej, naukowcy stwierdzają, że grupa eksperymentalna była za mała, dodają więc kolejne obserwacje i znowu testują. A każdy taki test to kolejna scena z Christopherem Walkenem:

Naukowcze!
Zanim przeprowadzisz kolejny test statystyczny, spójrz w oczy Christophera Walkena!

Simmons et al. przeprowadzili — oprócz swojej żartobliwej demonstracji — szereg symulacji komputerowych pokazujących, jaki wpływ mają tego typu praktyki na uzyskiwanie false positives; okazało się, że dramatyczny. Rewolwer dwudziestokomorowy zamienia się w dziesięciokomorowy, sześciokomorowy, a nawet — w pewnych sytuacjach — w taki, w którym na sześć komór tylko dwie są puste. Prawdopodobieństwo uzyskania jakiegoś pozornie istotnego statystycznie wyniku w oparciu o losowe dane jest wtedy większe niż 1/2!

Tak właśnie było w przypadku wyników eksperymentu z muzyką. Autorzy nie cofnęli się przed niczym: badali mnóstwo zależności, kiedy wyniki wychodziły nieistotne — eksperymentowali dalej póki nie osiągnęli istotności; przeprowadzali nieuzasadnione korektury; dodatkowe pomiary i szczegóły pominęli w opisie eksperymentu… ale wszystko należało do zabiegów, które są często stosowane w pracach naukowych. Na poniższym obrazku boldem jest to, co napisali w pierwszej części pracy, opisując swój eksperyment. Reszta tekstu to to, co wg autorów powinno się było znaleźć w opisie eksperymentu.

Autorem korespondencyjnym pracy jest Uri Simonsohn. Uri Simonsohn ostatnio dostał się na łamy Nature i Science, bo przy pomocy statystyki (tu inny link) zrujnował karierę oszustowi.

Literatura

Joseph P. Simmons,, Leif D. Nelson,, & Uri Simonsohn (2011). False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant Psychological Science DOI: 10.1177/0956797611417632



%d bloggers like this: