Na podstawie sondaży przewiduję, że wybory w Niemczech (24.9.2017) będą miały następujące wyniki:

Linie przerywane to wyniki wyborów z 22.9.2013. Pionowe prostokąty to 95% przedział przewidywania. Stracą obie duże partie. AfD ma szansę, by zostać „trzecią siłą”, ale mamy tu największy rozrzut badań. Linke i Zieloni w miarę stabilnie. FDP znów w parlamencie.

Jak to się rozłoży na rzeczywiste liczby miejsc w parlamencie, zależy od tego, jak głosy rozłożą się w landach. Niemiecka ordynacja wyborcza jest skomplikowana. Po pierwsze, parlament liczy co najmniej 598 posłów, ale może liczyć więcej. Po drugie, każdy głosujący oddaje dwa głosy: pierwszy głos na coś w rodzaju JOW-ów, wybierając kandydatów bezpośrednich ze swojego okręgu, i drugi na listę partyjną. Pierwszym głosem wybiera się 299 kandydatów ze wszystkich 299 okręgów; pozostałe głosy rozdziela się w obrębie landów (a nie całego kraju, jak u nas).

Poniżej – jeszcze raz to samo w tabeli (w nawiasie 95% przedział przewidywania). Po wyborach opiszę prostacką metodę, jaką doszedłem do tych przewidywań, i porównam je z sondażami z dzisiaj i okolic.

CDU 36.5% (34.5 – 38.5)
SPD 22.3% (19.9 – 24.7)
Grüne 7.7% (6.2 – 9.2)
FDP 9.4% (7.7 – 11.0)
Linke 9.5% (7.9 – 11.1)
AfD 10.3% (7.8 – 12.8)
Inne 4.3% (2.4 – 6.2)

Reklamy

Znowu o puszczy

30Czer17

Lasy Państwowe wraz z kumplami intensywnie zabiegają o to, żeby przeciwników wycinki drzew w Puszczy Białowieskiej obsmarować jako lewaków i ekoterrorystów. Gradacja kornika jest według nich spowodowana nie niszczeniem lasu przez sadzenie świerków , tylko przez brak wycinek — na żądanie lewackich ekoterrorystów i innych świrów. Leśnicy, rzeczowi specjaliści od lasów, od lat dbają o to, żeby utrzymać Puszczę w nienaruszonym stanie, heroicznie walczą z kornikiem, a tu przy chodzą wariaci i kij im w szprychy wtykają.

Nope. To odwracanie kota ogonem. Przeciw wycinkom w Puszczy nie protestują tylko „ekolodzy” (as in, „działacze na rzecz ochrony przyrody”), ale przede wszystkim ekolodzy (as in, naukowcy, specjaliści od ekosystemów). Naukowcy ci nie mają żadnego finansowego interesu w obronie Puszczy: ani nie zarabiają na drewnie (jak leśnicy), ani nie zarabiają na turystach (jak mieszkańcy Białowieży). Zależy im tylko na zachowaniu Puszczy w stanie naturalnym.

Krótko i przystępnie jest to wszystko wytłumaczone w dwustronicowym FAQ autorstwa trzech polskich naukowców specjalizujących się w ekologii, w tym ekologii lasów. Oświadczenie w sprawie wycinki podpisało również 33 dziekanów wydziałów przyrodniczych polskich uniwersytetów.

Wiele zepsutych rzeczy można odtworzyć czy odbudować: instytucje państwowe, ustanowione prawa, zburzone pomniki czy nawet miasta. Puszczy się tak nie odtworzy, bo raz utracona bioróżnorodność nie powróci w żadnym dającym się przewidzieć czasie.


I obviously agree that we have to follow the latest guidelines, I’m just worried if deviating from the convention may rub reviewers off the wrong way (Oczywiście, że powinniśmy stosować się do najnowszych rekomendacji, ale obawiam się, że odstawanie od konwencji może nie spodobać się recenzentom)

Współautorka, młodsza ode mnie o dekadę, krytykuje pomysł podawania przedziałów ufności zamiast wartości p (które są i tak w dodatkowej tabeli w manuskrypcie) — konwencji, która jest starsza od niej o parę dekad, a która przeszła do mainstreamu w czasie, gdy ona była jeszcze w szkole podstawowej. Wartości p są oczywiście potrzebne, ale dalece nie wystarczające; ślepe stosowanie wartości p uważa się za jedno ze źródeł kryzysu powtarzalności wyników (reproducibility crisis) w nauce. W szczególności nie powinno się ich stosować gdy mamy do czynienia z estymacją, a nie, explicite, testowaniem.

Poza tym, zawsze wyobrażałem sobie, że gdy będę miał te czterdzieści ileś lat, to będę z cynicznym uśmiechem uczył młodych, naiwnych naukowców jak porzucić durne naukowe ideały, by pozyskać lepsze recenzje i impakt faktory. Nigdy nie myślałem, że będzie odwrotnie.

Cytat bonusowy:

Q: Why do so many colleges and grad schools teach p = 0.05? (dlaczego tak wiele uniwersytetów uczy p=0.05?)

A: Because that’s still what the scientific community and journal editors use. (bo tego ciągle używa środowisko naukowe i redaktorzy czasopism)

Q: Why do so many people still use p = 0.05? (dlaczego ludzie wciąż używają p=0.05?)

A: Because that’s what they were taught in college or grad school. (bo tego ich nauczono na studiach)

George Cobb, za Wasserstein i Lazar, „The ASA’s Statement on p-Values: Context, Process, and Purpose”, The American Statistician 70(2), 2016.


Cytat na dziś

07Kwi17

Życie jest wrzodem na tkance wszechświata.

Jerzy Vetulani, 21.1.1936 — 6.4.2017

Podobnie jak w wielu innych podobnych tekstach, autorzy użyli w tym zdaniu angielskiego słowa *treatment* należącego raczej do słownika medycyny i oznaczającego terapię

— Adam Leszczyński, „Eksperymenty na biednych”

Książkę czytało mi się całkiem nieźle, bo jest pełna ciekawych historii, ale w pewnym momencie zaczęły pojawiać się wątpliwości, czy autor rozumie, o czym pisze. Wątpliwości nabrzmiały w okolicach rozdziału o planowanych eksperymentach ekonomicznych. Krytyka ekonomii eksperymentalnej, w której stosuje się ścisłą metodologię (grupy kontrolne, randomizacje itp.) jest oczywiście uzasadniona — należy zastanawiać się nad tym, czy badania są etyczne, czy grupy naprawdę losowe, do jakiego stopnia można ekstrapolować wnioski itp. Natomiast wszystkie te zarzuty stosują się do bardzo wielu nauk eksperymentalnych, a już zwłaszcza do testów klinicznych.

Ale medycyna jakoś sobie z tym radzi, bo innej możliwości właściwie nie ma. Badania muszą oczywiście być przeprowadzane w sposób przemyślany, z zatwierdzeniem komisji etyki i minimalizacją potencjalnych szkód dla uczestniczących. To są prawdziwe problemy i trzeba je rozwiązywać. Czasem wymaga to olbrzymiego trudu albo nakładów finansowych, zgoda, ale alternatywą jest pseudonauka. Co więcej, „badania metodą Angry Birds” (Leszczyński za Angusem Deatonem), czyli metodą prób i błędów, bez grup kontrolnych i starannie zaplanowanych zabiegów, też mają wiele z tych problemów, ale nie dają możliwości, żeby wyniki w jakikolwiek sposób zmierzyć. W efekcie ocena jest wyłącznie w oku patrzącego, co w poprzednim rozdziale Leszczyński szczegółowo zresztą napiętnował.

Wątpliwości, czy autor książki rozumie te zagadnienia, rozwiał powyższy cytat. Nie, nie rozumie. Treatment to w projektowaniu eksperymentu naukowego po prostu zabieg, manipulacja jaką poddaje się jedną z grup (w odróżnieniu od grupy kontrolnej). Treatment effect to efekt naszej manipulacji — czy w porównaniu do grupy kontrolnej zabieg przyniósł jakiś mierzalny skutek. Nie ma znaczenia, czy piszemy o biologii, chemii, medycynie czy ekonomii eksperymentalnej, bo to pojęcie występuje we wszystkich naukach eksperymentalnych i statystyce. Nie da się przeczytać ze zrozumieniem pracy naukowej i jednocześnie nie wiedzieć, że treatment to nie terapia.

Próbowałem czytać dalej, ale na każdym kroku zastanawiałem się, czy autor aby czegoś nie przekręcił; jak to było właściwie w oryginale; czy praca, którą cytuje, rzeczywiście stwierdza to, co nam przekazuje autor. Było to tak irytujące, że po kolejnym rozdziale cisnąłem książkę w kąt, tzn. usunąłem z czytnika.


tl;dr: pod pozorem pisania o polityce opowiadam o przedziałach ufności (czyli kapeluszach), korelacji i lokalnej regresji wielomianowej (loess). I odpowiadam na pytanie, czy Schetynie rośnie, i dlaczego, oraz czy Razem wejdzie. Z góry przepraszam za chaos i błędy — zacząłem pisać notkę bardzo dawno temu, i teraz na chybcika skończyłem je na seminarium…

„Rośniemy w siłę!” – twierdzi Platforma Obywatelska. „PO jest w natarciu” twierdzi Tygodnik Powszechny, bo „rosną jej sondaże”. Członkowie Razem z mojej bańki cieszą się, że „Razem wejdzie do Sejmu”. Wszystko opiera się na opublikowanych niedawno sondażach, a te są przekonujące:

Wygląda nieźle, prawda? W każdym razie, o ile nie obejrzy się tych badań w kontekście wszystkich sondaży przeprowadzonych przez ostatnie półtora roku:

Dane ze 122 sondaży wyborczych od 1.7.2015 do 17.3.2017. Linie przerywane odpowiadają wynikom wyborów.

Ups. Jak widać, wyniki sondaży są bardzo zmienne, i ciężko dostrzec jakiś systematyczny trend. Co więcej, wygląda na to, że wkrótce po wyborach wszystkie partie zajęły mniej lub bardziej stałe miejsce w sondażach, wokół którego oscylują. To co w końcu z tym PO, wzrosło im, czy nie? Czy sondaże to tylko wróżenie z fusów, a nagroda za przewidzenie wyniku wyborów słusznie nazywa się Złotym Pucharem Pytii?

Na szczęście z pomocą może nam przyjść statystyka.

Sondaże są oparte zazwyczaj na dobrowolnej odpowiedzi około tysiąca zapytanych mniej lub bardziej losowo wybranych osób. Te wszystkie założenia prawie na pewno nie są idealnie spełnione — dowód na to, że nie są, będzie za chwilę.

Zacznijmy jednak od tego, że nawet, jeśli osoby te są naprawde losowo wybrane, i nawet, jeśli wszystkie udzielone odpowiedzi w doskonały sposób odzwierciedlają decyzję, jaka dana osoba podjęła by przy urnie, to wyniki sondażu będą obarczone pewnym losowym błędem. Gdy rzucimy tysiąc razy doskonale wyważoną, uczciwą monetą, nie oczekujemy, że otrzymamy dokładnie 500 reszek i 500 orłów, prawda¹? Czasem będzie trochę więcej orłów, a czasem reszek. Czasem trafi nam się wśród respondentów większa proporcja wyborców PO niż wśród wszystkich głosujących, a czasem mniejsza. Ile i jak często, może nam powiedzieć statystyka, albo prosta symulacja. Poniższy obrazek powstał przy założeniu, że prawdziwe poparcie dla poszczególnych partii jest dokładnie takie, jak wskazuje jeden z nowszych z sondaży (PO – 27%, PiS – 29% itd.). Program symulacji sto razy wybrał losowo 1000 respondentów, i oto wyniki:

Nie ma aż takiej zmienności jak na pierwszym obrazku, ale widać, że wahania sięgają trzech punktów procentowych — w obie strony. Kiedy patrzymy na słupki sondaży, warto więc przypomnieć sobie pojęcie przedziału ufności.

Przedział ufności to kapelusz². Już tłumaczę.

Na ziemi leży moneta. Rzucamy na nią kapeluszem. Wynik rzutu jest jednoznaczny: albo, z pewnym prawdopodobieństwem, nakryliśmy kapeluszem monetę, albo nam się to nie udało. Ta moneta to poparcie, które uzyskalibyśmy przeprowadzając prawdziwe wybory (nazwijmy sobie ją „PPP”, „prawdziwie prawdziwe preferencje”). Przeprowadzając sondaż, z pewnym prawdopodobieństwem trafimy blisko prawdziwej wartości PPP. 95%-owy przedział ufności to taki specjalny kapelusz, którym udaje nam się nakryć monetę w 95% przypadków. Jeśli przeprowadzimy 100 sondaży, to przedział ufności gwarantuje nam³, że średnio w 95 z nich PPP będzie w obrębie 95%-owego przedziału ufności. Jednak w przypadku konkretnego sondażu albo trafiliśmy kapeluszem, albo nie, tak że mówienie o prawdopodobieństwie nie ma sensu⁴.

Wiem, że to trochę zagmatwane, i może dlatego nigdy wraz sondażami nie podawane są przedziały ufności. Co oznacza, że przedział ufności wyniósł 27-33%? Że z prawdopodobieństwem 95% trafiliśmy tym sondażem tak, że prawdziwa wartość leży gdzieś w tym przedziale. Ale czy leży bliżej średniej, czy dalej — tego nie możemy wiedzieć.

Przedział ufności dla proporcji (czyli wyników sondaży) można policzyć, ale na potrzeby czytania sondaży warto zapamiętać, że przy badaniu 1000 respondentów:

  • Dla poparcia rzędu 30-40%: 95%-owy przedział ufności wynosi ok. 3pp w górę i w dół
  • 20-30%: ok. 2.5pp
  • 10-15%: ok. 2pp
  • 3-5%: ok. 1pp

Jeśli więc poparcie jakiejś partii wyniosło, powiedzmy, 27%, to należy sobie to przetłumaczyć na „24.5 — 29.5”. A jeśli 5%, to tak naprawdę myślmy „4-6%”. To jest minimum niepewności, które zawsze powinniśmy uwzględnić czytając sondaże. Poparcie z sondażu może wzrosnąć lub spaść o 6% i nie będzie w tym niczego niezgodnego z hipotezą, że prawdziwe poparcie się nie zmieniło!

Co gorsza, powyżej (i poniżej też) widać, że nawet takie oszacowanie błędu nie oddaje sprawiedliwości rzeczywistemu rozrzutowi sondaży. Tak naprawdę jest większy, niż przewidują to proste przedziały ufności. Z czego to wynika? Najwyraźniej nie są spełnione założenia: sondaże nie są zależne, próba najprawdopodobniej nie całkiem losowa i tak dalej. Albo PPP zmienia się szybciej, niż by się to wydawało.

Tak naprawdę najbardziej interesuje nas jednak zmiana poparcia w czasie: rośnie, czy maleje? Przybyło, czy ubyło? W statystyce najprostszym sposobem modelowania zmiany jakiejś wartości (np. poparcia) w zależności od drugiej (np. czasu) jest regresja liniowa. Niestety, regresja liniowa zakłada, że poparcie jednostajnie rośnie albo maleje. To oczywiście nie jest prawda, dlatego zastosujemy dalekiego kuzyna regresji liniowej — lokalną regresję wielomianową. W szczególności metodę znaną jako LOESS. Zamiast opisywać tutaj szczegóły, pokażę, jak to wygląda w praktyce:

Po lewej są same pojedyncze sondaże (dla jednej z partii), po prawej — również krzywa loess (ciemnoniebieska linia pośrodku) z przedziałami ufności (ciemniejsze pole) i przedziałami prognozy (jaśniejsze pole).

…prognoz? Ugh, zapomniałem wyjaśnić. Otóż są dwie sprawy. Po pierwsze, mamy jakieś (nieznane) prawdziwe preferencje (PPP), które poznać możemy jedynie przeprowadzając prawdziwe wybory. Przedział ufności gwarantuje³ nam, że PPP leży w 95% wypadków w obrębie tego ciemnego pasa pośrodku. Ale prawdziwy sondaż jest wypadkową dwóch składników: PPP oraz przypadku (na który składają się losowanie 1000 respondentów i ewentualne inne błędy). Dlatego nawet jeśli PPP jest w obrębie tego ciemnego pasa, kolejny sondaż, który przeprowadzamy — niekoniecznie. Po to jest przedział prognozy: w nim będzie zawartych 95% przeprowadzanych konkretnych sondaży.

Teraz możemy spojrzeć na wszystkie partie. Żeby uprościć nieco obrazek, dzielę go na trzy części: pisopo.nton u góry, potem jedne płotki, potem drugie płotki:

Pierwszy wniosek z powyższego: co prawda PO rzeczywiście rośnie w siłę, ale dzieje się to wyłącznie kosztem .N! Nie ma oznak, żeby poparcie dla PiS znacząco malało; być może ostatnie sondaże są rzeczywiście pierwszymi oznakami zmiany, ale na razie nie odstają zbytnio od dotychczasowego przedziału prognoz.

To, że PO i .N wymieniają się głosującymi i jeden zyskuje, gdy drugi traci, najlepiej widać na obrazku przedstawiającym korelację (lewy panel):

Oczywiście, każda partia której poparcie zmienia się w czasie będzie silnie korelować z każdą inną partią, której poparcie również zmienia się w czasie (bo obie zależą od czasu). Dlatego powyżej na obrazku po prawej przedstawiam korelację wartości resztowych z modelu zależnego od czasu. Innymi słowy, odejmuję od danych tę ich część, która zależy od czasu; reszta nie koreluje z czasem — a mimo to .N nadal koreluje z PO.

Jeszcze śmieszniej będzie, jak sobie obejrzymy Ponton, czyli PO + .N:

Nie, PiS nie wygrał przez Razem, które odebrało głosy SLD. PiS wygrał dzięki Ryszardowi Petru, który odebrał głosy PO (albo vice versa). Inna sprawa, że o ile PO nie pokazuje negatywnej korelacji z PiS, o tyle .N i PiS są silnie negatywnie skorelowane (korelacja wartości resztowych dla PiS / .N wynosi -0.53). Tutaj aż się prosi bardziej złożona analiza wyjaśniająca, gdzie przyczyna, a gdzie skutek (to się da zrobić w takiej sytuacji), ale nie mam na to czasu.

Co do innych partii: Razem jest dość stabilnie poniżej swojego wyniku wyborczego, niemniej jednak słabo bo słabo, ale idzie w górę (reszty nie omawiam, bo mnie nie interesuje). Może dojdzie. Koreluje pozytywnie z Korwinem, nie koreluje z SLD, ale koreluje negatywnie z PiSem (sondaże z silniejszym PiSem pokazują słabsze Razem, i vice versa), co mogłoby sugerować, że aby zyskać, Razem powinno przede wszystkim celować w przeciągnięcie wyborców PiSu (but it’s complicated).

Jeszcze dwie rzeczy są ciekawe. Na poniższym obrazku bynajmniej nie ma pokazanych dwóch partii: wszystkie punkty to wyniki z różnych sondaży dla tej samej partii — .N po lewej, PiSu po prawej. Dwa kolory natomiast oznaczają dwie różne instytucje, które przeprowadzały sondaż:

Fascynujące! Niezależnie od tego, czy wynika to ze spizgu, czy po prostu różnic w przyjętej metodologii badawczej, istnieje wyraźny, systematyczny trend odróżniający te dwie grupy sondaży. Natomiast trend znika w okolicy wyborów. Może mieć to też wpływ na korelacje, które liczyłem powyżej (nie sprawdzałem tego).

Druga sprawa: na obrazkach powyżej widać wyraźną nieciągłość w okolicy wyborów. Po pierwsze, sondaże konwergują bardzo silnie blisko PPP w dzień wyborów (oznaczonego na obrazku za pomocą linii przerywanych). Innymi słowy, idąc od lewej, zmniejsza się wariancja wyników sondaży. Po drugie, sondaże po prawej stronie (po wyborach) ulegają często dość gwałtownej zmianie. Dlatego regresja nie trafia w PPP (można temu zaradzić, ale ten tekst jest wystarczająco długi i bez tego).

Teraz ja się będę bawił we wróżenie z fusów.

Otóż hipoteza, którą utworzyłem na podstawie powyższej zabawy jest taka: sondaże dobrze oddają rzeczywistość tylko w okresie przedwyborczym, gdy ludzie naprawdę poświęcają trochę czasu, żeby zastanowić się, na kogo głosować. W tej chwili mają na głowy inne sprawy niż brazylijski serial polityczny w telewizji, dlatego spytani, odpowiedzą (przynajmniej niektórzy z nich) mniej lub bardziej losowo, co im w danej chwili przyjdzie do głowy. Jutro może odpowiedzą zupełnie co innego, bo właśnie zobaczyli w telewizji, że kochanka kota Kaczyńskiego pojechała pontonem na wczasy do Chorwacji blokować mównicę Donalda Tuska.

Dlatego poza okresem tuż przed wyborami sondaże wahają się bardzo znacznie — bardziej, niż wynika to z obliczonych przedziałów ufności, a wahania zależą silnie od przyjętej metodologii. PPP nie jest więc jakąś stałą wartością w populacji, ale samo w sobie jest zmienną losową, której parametry zależą od tego, gdzie na osi czasu się znajdujemy.

Taką hipotezę można sprawdzić — po pierwsze, można poczekać do następnych wyborów i zobaczyć, czy moje przewidywania są słuszne. Poza tym można sprawdzić jak to wygląda w innych krajach. Have fun!

¹ zwłaszcza, jeśli rzucamy jednoeurówką
² nie pamiętam, gdzie przeczytałem tę metaforę, ale jest bardzo dobra.
³ przy spełnionych pewnych założeniach, np. o losowości próby
⁴ w tzw. frekwentystycznym rozumieniu świata. W bajezjańskim prawdopodobieństwo jest miarą naszej subiektywnej informacji, więc taka interpretacja ma sens.


Post scriptum: jak zauważa komentator Bob tekst Budzicza nie jest aż taki zły, jak go namalowałem; poniosło mnie ze względu na dwie rzeczy. Po pierwsze, takie troche lekceważące zbycie dyskryminacji kobiet w nauce nieprawdziwym argumentem o recenzjach; po drugie, naiwne psycho-ewo.

Łukasz Budzicz zadaje pytanie, czy kobiety są głupsze, i twierdzi, że opowie, co o tym pisze nauka. Uznałem, że wypada mi skorygować kilka nieprawd w tym artykule. Najpierw, tradycyjnie, pochwała: w artykule jest sporo źródeł, m.in. bezpośrednio podlinkowane oryginalne prace naukowe. Gratulujemy Gazecie! Osiągnęła standard blogowania popularnonaukowego sprzed dziesięciu lat.

Zacznę od szachów. Rzeczywiście, wśród najlepszych 100 graczy szachowych na świecie nie ma chwilowo ani jednej kobiety. Jednak to, co pisze dalej pan Budzicz, to nieprawda: „Dużo więcej mężczyzn gra w szachy na każdym poziomie, ale im wyżej w rankingu, tym dysproporcja płci się pogłębia (na niekorzyść kobiet).”

Otóż od dawna wiadomo, że ta dysproporcja może wynikać po prostu ze statystycznych właściwości rozkładu wartości maksymalnych. Nawet, jeśli rozkłady osiągnięć kobiet i mężczyzn są identyczne (o takiej samej średniej i wariancji), to wystarczy, że o wiele mniej kobiet gra w szachy¹, by wśród najlepszych graczy praktycznie ich nie było. Niedawno skonfrontowano tę hipotezę z bardzo szczegółowymi danymi z niemieckiej ligi szachowej. Nie tylko okazało się, że rzeczywiście — nie trzeba szukać wyjaśnień kulturowych albo biologicznych; sama statystyka wystarczy, by wyjaśnić to zjawisko. Więcej — najlepsze kobiety, takie jak Judit Polgar są lepsze, niż możnaby oczekiwać z rozkładu wartości maksymalnych.

Drugą ważną kwestią jest to, czy w ogóle umiejętność gry w szachy można uważać za jakąś miarę inteligencji. Budzicz o to nie pyta, a szkoda — bo są prace naukowe, które badały związek między umiejętnością gry w szachy a inteligencją. O dziwo, w najlepszym wypadku można powiedzieć, że ta kwestia nie jest rozstrzygnięta, w najgorszym — że związku nie ma. Pierwszą pracę, która pokazuje że związku nie ma, opublikowano w 1927 roku (cytat za artykułem Merim Bilalić i Petera McLeoda); a są publikacje, które sugerują wręcz coś przeciwnegoÜbung macht den Meister, inteligencja tylko przeszkadza².

Kolejna nieprawda w artykule: „Ale recenzowanie artykułów w fizyce i innych naukach jest oparte w dużej mierze na anonimowym peer review (recenzenci artykułów nie znają tożsamości, a więc też płci autora)„.

Pierwsze słyszę, a recenzowałem już trzy artykuły. W tym roku, chociaż ledwie się zaczął. W naukowym mainstreamie recenzent zna autorów, a często autorowie też mogą się domyślić osoby recenzenta (sam czasem nawet podaję swoje nazwisko do wiadomości autorów). Rzeczywiście, double (a nawet triple) blind review stosuje się w niektórych specjalistycznych czasopismach (psychologicznych, materiałoznawstwie i in.) czy nawet dziedzinach; w bardziej ogólnych czasopismach STEM były próby wprowadzenia podwójnie ślepego procesu recenzyjnego (w którym recenzenci nie wiedzą, kim jest autor), ale było to na zasadzie dobrowolnej opcji w paru czasopismach (np. Physical Review), z której mało kto korzystał³.

Na dyskryminację kobiet w nauce są dowody, by tak rzec, naukowe. W słynnym badaniu w 2012 wysyłano CV początkującego naukowca do różnych instytucji naukowych. Część identycznych aplikacji podpisano „John”, a część „Jennifer”. Po pierwsze, John otrzymywał wyraźnie lepszą ocenę i większą początkową pensję (średnia różnica wynosiła 10% — 3,500$ rocznie). Po drugie, niższe płace oferowane kobietom wynikały bezpośrednio z niższej oceny kompetencji (czyli nie np. obaw, że kobieta może zajść w ciążę). Po trzecie, ocena kobiet (ale nie mężczyzn) korelowała z seksizmem osoby oceniającej (mierzonym używaną w psychometrii skalą „modern sexism scale”). Nie jest to ani jedyna, ani nawet pierwsza taka praca.

Oprócz postulowanych różnic w średnim IQ (albo czynnikiem g) między kobietami i mężczyznami postuluje się też czasem inną różnicę w parametrach rozkładu: zmienności. Wśród mężczyzn ma być więcej jednostek o wybitnie wysokich parametrach, jak i takich, którzy mają wyjątkowo niskie wartości IQ czy g. To by miało tłumaczyć, dlaczego tak mało kobiet ma nagrodę Nobla z fizyki (albo medal Fieldsa).

Ciężko mi ocenić całą literaturę, ale z całą pewnością nie osiągnięto tu jeszcze konsensusu. Różnicy w zmienności przeczą zarówno wnioski cytowanej przeze mnie wcześniej Elizabeth Spelke, jak i metaanalizy stojącego po drugiej stronie barykady Paula Irwinga. Za różnice w liczbie otrzymanych Nobli może odpowiadać też opisany powyżej efekt statystyczny, jak i zwyczajna, powszednia dyskryminacja.

Na koniec jeszcze jedna rzecz, która mnie od tego artykułu odrzuciła. Nie tyle rzecz, co wyjęta z nosa konfabulacja:

Źródłem tych różnic jest, jakżeby inaczej, przede wszystkim ewolucja. U ludzi, tak jak u praktycznie wszystkich ssaków, to samice ponoszą większe koszty reprodukcji. Będą więc bardziej wybredne w doborze partnerów. Samiec musi sobie czymś „zasłużyć” na możliwość spółkowania. Majątek, wybitne osiągnięcia naukowe i artystyczne, wysoka pozycja polityczna są dla kobiet sygnałami, że mężczyzna ma wysoką biologiczną jakość. I to mężczyźni będą chcieli (średnio) poświęcić więcej, albo podjąć większe ryzyko, żeby odnieść sukces.

Bardzo charakterystyczne, że w przytoczonym ustępie nie ma ani jednego odnośnika. To jest dokładnie ten rodzaj konfabulacji, przenoszących niektóre ewolucyjne badania na kulturę ludzką, przed którymi zawsze ostrzegam swoich studentów ewolucjonizmu. To jest „Kobiety są z Uranu, a mężczyźni z 1992 QB1”. To jest poradnik psychologiczny mistrza podrywu. Pozwolę sobie przytoczyć tutaj wnioski z artykułu V.S. Ramachandrana, „Dlaczego dżentelmeni wolą blondynki”:

Podsumowując, sugeruję że dżentelmeni wolą blondynki by móc lepiej wykrywać wczesne infekcje pasożytnicze i objawy starzenia — jedno i drugie pośrednio redukują płodność i przeżywalność potomstwa.

Tak, to parodia. Neurobiolog Vilanayur Ramachandran zrobił im Sokala. I tak, nabrali się.

Nie ma wątpliwości, że ewolucja ukształtowała naszą psychikę, tak jak i nie ma wątpliwości co do roli kultury. Jest miejsce na ewolucyjne badania psychiki ludzkiej. Ale to powyżej to przykład, jak o tym nie należy pisać — to bajka opierająca się tyleż na prymitywnym postrzeganiu ewolucji, co braku szacunku dla potęgi ludzkiej kultury.


¹Inna sprawa oczywiście to to, dlaczego kobiety rzadziej grywają w szachy. Może są zbyt inteligentne na taką nudną rozrywkę?
²To badanie na bardzo małej grupie, więc nie uogólniałbym.
³Mógłbym się powstrzymać od osobistego przytyku, i pewnie powstrzymałbym się, gdyby nie chodziło o artykuł w gazecie o takim zasięgu — Budzicz po prostu ma małe doświadczenie w publikowaniu w mainstreamowych czasopismach naukowych.