tl;dr: światem rządzą sieci bezskalowe. The rich get richer, w nauce jest tak samo, a Nobel to nagroda dla najbogatszych. Można zobaczyć filmik, a na końcu narzekam na to, że mnie nikt nie cytuje, i nikt nie bada nieznanych genów. Artykuł zacząłem pisać dwa lata temu, a teraz zmotywował mnie świetny artykuł z Atlantica.

Pierwszy powód jest taki, że robię się coraz starszy, a Nobla nie tylko nie dostałem, ale nawet nie zapowiada się, żebym go kiedyś dostał. To jest oczywiście dobry powód do zgorzknienia i narzekania, ale mam też lepsze racjonalizacje. Dojrzewały we mnie już od jakiegoś czasu, ale gdy przeczytałem artykuł Eda Yonga z „The Atlantic” zrozumiałem że tak mogę się pod tym podpisać.

Nauka jest wysiłkiem zespołowym i bardzo rzadko trafia się noblista, który zrobił coś w pojedynkę (czy nawet samotrzeć). Nagrody Nobla nie tylko promują błędną wizję nauki jako wysiłku samotnych geniuszy, ale notorycznie pomijają pewne grupy osób: kobiety, młodszych stażem, czarnych, żółtych… um, właściwie to wszystkie grupy naukowców z wyjątkiem uprzywilejowanych starych białych facetów, USBF1, którzy mieli to szczęście, że dożyli (z jednym wyjątkiem). Którzy w ogóle mieli szczęście, full stop, bo jak powiedział Sydney Brenner, mój ulubiony noblista (też skądinąd USBF),

Sposób na sukces to urodzić się we właściwym czasie i właściwym miejscu. Jeśli potrafisz tego dokonać, to odniesiesz sukces. Musisz tylko być otwarty i mieć trochę talentu.

The way to succeed is to get born at the right time and in the right place. If you can do that then you are bound to succeed. You have to be receptive and have some talent as well.

Cytat pochodzi z wywiadu, który w ogóle warto przeczytać.

W nauce niestety mamy do czynienia ze zjawiskiem, które nazywa się „preferencyjnym przyłączaniem” (preferential attachment), czyli zasadą „the rich get richer” – bogaci bogacą się jeszcze bardziej. Sława rodzi większą sławę, granty rodzą jeszcze większe granty itd. Co gorsza, autorytet rodzi większy autorytet, także poza dziedzinami, za które dany osobnik dostał Nobla. Mamy wśród noblistów przykłady denialistów klimatycznych, denialistów związku między HIV a AIDS, wiary w astrologię, wiary w Obcych w postaci fluorescencyjnych szopów praczy… no dobra, to wszystko to jest jeden noblista, ale nie jest odosobniony. Skoro jednak noblista coś mówi, to chyba nie mówi byle czego, prawda?2

Można sobie powiedzieć, tak jest ten świat urządzony, ale są jeszcze dwa przykłady tego zjawiska, które mnie wyjątkowo denerwują. Zanim je podam, pokażę, jak w praktyce działa preferencyjne przyłączanie.

Pomyślcie teraz o sieci komputerowej. W sieci komputerowej mamy węzły (komputery) i połączenia (kabelki sieciowe, czy nawet bezprzewodowe połączenia sieciowe). Większość komputerów ma jeden kabelek, ale są takie specjalne komputery – routery, serwery czy co tam, nie znam się – które mają tych kabelków fafnaście albo nawet pierdylion; tyle, że jest ich o wiele mniej, niż komputerów z jednym kabelkiem. Taka sieć nazywa się bezskalowa – przykładem takiej sieci jest po prostu Internet.

Jak zrobimy wykres, na którym na osi poziomej jest liczba kabelków sieciowych, a na osi pionowej liczba komputerów, które mają daną liczbę kabelków, to wyjdzie coś takiego:

W sieci powyżej jest jeden komputer z siedmioma połączeniami, jeden z pięcioma, za to dziesięć bez żadnego połączenia. To bardzo dobrze widać na rysunku po prawej: wykładniczo spadająca liczba komputerów wraz ze zwiększającą się liczbą kabelków.

Taka sieć powstaje właśnie w wyniku preferencyjnego przyłączania, co łatwo zasymulować. Poniższy filmik pokazuje, co dzieje się ze zwykłą siecią – nie bezskalową, tylko taką, w której wszystkie komputery mają mniej więcej tyle samo kabelków. W każdym kadrze dokładany jest jeden węzeł zgodnie z zasadami preferencyjnego przyłączania. Zauważcie, jak szybko sieć staje się bezskalowa:

Bardzo ciekawym przykładem sieci bezskalowych jest sieć publikacji naukowych. Każdy artykuł naukowy powołuje się na inne artykuły naukowe, czyli je cytuje. Cytowania to waluta nauki: liczysz się tyle, ile masz cytowań3. Są jedyną w przybliżeniu obiektywną miarą tego, jak ważne jest jakieś badanie4. Służą do oceny naukowców, ich wpływu na naukę, w konkursach na stanowiska, w rozdzielaniu grantów itd.

Jeżeli na wykresie przedstawiającym sieć artykuł jest kropką, to cytowanie jednego artykułu przez drugi może być kreską między dwoma kropkami. I teraz znowu mamy do czynienia z siecią bezskalową: artykuł, który został już raz zacytowany, ma o wiele większe szanse, by zacytowano go ponownie. Bo skąd ja wiem o artykułach do cytowania? Na przykład z wyszukiwarki google.scholar, która zwraca najpierw artykuły o większej liczbie cytowań. Ale nawet przed google.scholar tak było, najstarsze prace dokumentujące to zjawisko pochodzą z lat ’60 zeszłego wieku. Nie sposób bowiem czytać całej literatury, więc poza najwęziej rozumianym tematem pracy, cytuję chętniej prace, które już raz cytowałem, a często o jakiejś pracy dowiaduję się, bo ją ktoś zacytował.

Nie mam pomysłu, co by z tym można było zrobić, ale mnie irytuje, bo efekt jest taki: bywa, że znakomite prace nie są cytowane tylko dlatego, że w podobnym czasie — niekoniecznie wcześniej — wyszła podobna praca, która z takich czy innych powodów trafiła na świecznik. Pomijając sytuację, gdy pewna praca była zdecydowanie pierwsza w swojej dziedzinie, to niezależne od siebie publikacje potrafią dostawać zupełnie różne liczby cytowań tylko dlatego, że jedna z nich ma bardzo znanego autora (albo po prostu miała szczęście dostać się do lepszego czasopisma). To jest niesprawiedliwe, bo nieproporcjonalnie nagradza jednego autora, a co gorsza, redukuje różnorodność reprezentowanych w naukowym mainstreamie interpretacji i poglądów.

Ale to małe miki. Mam lepszą historię.

Człowiek ma mniej więcej dwadzieścia tysięcy różnych genów kodujących białka. Ze wszystkich kręgowców, genom człowieka jest najlepiej poznany – co nie znaczy że znamy go bardzo dobrze. Kiedy sprawdzam5, jakie geny są aktywowane u ludzi chorych na gruźlicę, o mniej więcej połowie wiem w przybliżeniu do czego służy. Pozostałe mają w najlepszym razie jakieś szczątkowe opisy. Moim ulubionym przykładem jest gen ANKRD22, który jest jednym z najlepszych biomarkerów gruźlicy. Gen jest indukowany przez interferon (który odgrywa dużą rolę w gruźlicy6), produkowane białko ma strukturę, którą możemy odgadnąć – i w sumie tyle. Niewiele o nim wiadomo, poza tym, że bierze udział w całym szeregu różnych procesów chorobowych.

Preferencyjne przyłączanie w tym przypadku działa tak, że więcej badań publikuje się na temat genów, o których już i tak dużo wiemy. Garstka genów omawiana jest w tysiącach artykułów naukowych, a jednocześnie – tysiące genów w ogóle nie pojawia się w żadnych publikacjach7:

Zwróćcie uwagę na niebieskie punkty. Każdy z nich oznacza jeden gen; na pionowej osi jest związana z tym genem liczba opublikowanych badań naukowych. Jak widać, pewne geny (takie jak TNF albo interleukina 6) mają tysiące publikacji, ale większość genów nie była dotąd jeszcze nigdy badana.

Najgorsze jest to, że pieniądze na badania rozkładają się dokładnie tak samo: łatwiej dostać grant na badanie genu, o którym już wiemy, że jest ważny, i na temat którego napisano tysiące prac, niż na badanie genu, o którym nic nie wiemy.

Staję się powoli SBF, a może nawet USBF (zależy od punktu widzenia), i gdybym mógł zmienić w nauce jedną rzecz, to właśnie te różne preferencyjne przyłączania i sieci bezskalowe. Noble z jednej strony są fajne, bo popularyzują naukę, ale jednocześnie napędzają zjawiska, które szkodzą nauce. Dlatego przestałem je lubić.


  1. USBF, czyli Uprzywilejowani Starzy Biali Faceci. 
  2. Niedawno miałem praktyczne doświadczenie jak to działa: pewien USBF, profesor biologii, wagi ciężkiej (czyt. gruba ryba), poinformował mnie, że rozmawiał z fizykiem-noblistą podczas spotkania w Lindau, i ten mu powiedział, że nie wiadomo, czy globalne ocieplenie jest spowodowane przez człowieka. I koniec, żadne argumenty się już nie przebiją, bo NOBLISTA i FIZYK tak powiedział. Normalnie jakbym rozmawiał z korwinoidem z wykopu, ale nie, ten człowiek jest wielkim uczonym – w swojej dziedzinie. 
  3. Niestety, to nieprawda. Liczysz się tyle, ile ma średnio cytowań artykuł z czasopisma, w którym publikujesz – czyli tzw. impact factor. Publikacja w Nature, którą pies z kulawą nogą nigdy nie przeczytał liczy się więcej, niż publikacja w PLoS ONE, która została zacytowana przez stu innych autorów. I to jest skandal. Kiedyś napiszę o tym notkę. 
  4. Tak, oczywiście, znam mnóstwo kontrprzykładów, ale nic lepszego nie ma. Kiedyś napiszę o tym notkę. 
  5. Niestety, sporo artykułów naukowych jest za paywallem. Ale jeśli kto ciekawy, to w opisie działania mojego pakietu do analizy ekspresji genów jest sporo na ten temat. Kiedyś napiszę o tym notkę. 
  6. Kiedyś napiszę o tym notkę. 
  7. Ilustracja pochodzi z pracy Huss III, Jon W., et al. „The Gene Wiki: community intelligence applied to human gene annotation.” Nucleic acids research 38.suppl_1 (2009): D633-D639.. Właśnie napisałem o tym notkę. 
Reklamy

Na podstawie sondaży przewiduję, że wybory w Niemczech (24.9.2017) będą miały następujące wyniki:

Linie przerywane to wyniki wyborów z 22.9.2013. Pionowe prostokąty to 95% przedział przewidywania. Stracą obie duże partie. AfD ma szansę, by zostać „trzecią siłą”, ale mamy tu największy rozrzut badań. Linke i Zieloni w miarę stabilnie. FDP znów w parlamencie.

Jak to się rozłoży na rzeczywiste liczby miejsc w parlamencie, zależy od tego, jak głosy rozłożą się w landach. Niemiecka ordynacja wyborcza jest skomplikowana. Po pierwsze, parlament liczy co najmniej 598 posłów, ale może liczyć więcej. Po drugie, każdy głosujący oddaje dwa głosy: pierwszy głos na coś w rodzaju JOW-ów, wybierając kandydatów bezpośrednich ze swojego okręgu, i drugi na listę partyjną. Pierwszym głosem wybiera się 299 kandydatów ze wszystkich 299 okręgów; pozostałe głosy rozdziela się w obrębie landów (a nie całego kraju, jak u nas).

Poniżej – jeszcze raz to samo w tabeli (w nawiasie 95% przedział przewidywania). Po wyborach opiszę prostacką metodę, jaką doszedłem do tych przewidywań, i porównam je z sondażami z dzisiaj i okolic.

CDU 36.5% (34.5 – 38.5)
SPD 22.3% (19.9 – 24.7)
Grüne 7.7% (6.2 – 9.2)
FDP 9.4% (7.7 – 11.0)
Linke 9.5% (7.9 – 11.1)
AfD 10.3% (7.8 – 12.8)
Inne 4.3% (2.4 – 6.2)


Znowu o puszczy

30Czer17

Lasy Państwowe wraz z kumplami intensywnie zabiegają o to, żeby przeciwników wycinki drzew w Puszczy Białowieskiej obsmarować jako lewaków i ekoterrorystów. Gradacja kornika jest według nich spowodowana nie niszczeniem lasu przez sadzenie świerków , tylko przez brak wycinek — na żądanie lewackich ekoterrorystów i innych świrów. Leśnicy, rzeczowi specjaliści od lasów, od lat dbają o to, żeby utrzymać Puszczę w nienaruszonym stanie, heroicznie walczą z kornikiem, a tu przy chodzą wariaci i kij im w szprychy wtykają.

Nope. To odwracanie kota ogonem. Przeciw wycinkom w Puszczy nie protestują tylko „ekolodzy” (as in, „działacze na rzecz ochrony przyrody”), ale przede wszystkim ekolodzy (as in, naukowcy, specjaliści od ekosystemów). Naukowcy ci nie mają żadnego finansowego interesu w obronie Puszczy: ani nie zarabiają na drewnie (jak leśnicy), ani nie zarabiają na turystach (jak mieszkańcy Białowieży). Zależy im tylko na zachowaniu Puszczy w stanie naturalnym.

Krótko i przystępnie jest to wszystko wytłumaczone w dwustronicowym FAQ autorstwa trzech polskich naukowców specjalizujących się w ekologii, w tym ekologii lasów. Oświadczenie w sprawie wycinki podpisało również 33 dziekanów wydziałów przyrodniczych polskich uniwersytetów.

Wiele zepsutych rzeczy można odtworzyć czy odbudować: instytucje państwowe, ustanowione prawa, zburzone pomniki czy nawet miasta. Puszczy się tak nie odtworzy, bo raz utracona bioróżnorodność nie powróci w żadnym dającym się przewidzieć czasie.


I obviously agree that we have to follow the latest guidelines, I’m just worried if deviating from the convention may rub reviewers off the wrong way (Oczywiście, że powinniśmy stosować się do najnowszych rekomendacji, ale obawiam się, że odstawanie od konwencji może nie spodobać się recenzentom)

Współautorka, młodsza ode mnie o dekadę, krytykuje pomysł podawania przedziałów ufności zamiast wartości p (które są i tak w dodatkowej tabeli w manuskrypcie) — konwencji, która jest starsza od niej o parę dekad, a która przeszła do mainstreamu w czasie, gdy ona była jeszcze w szkole podstawowej. Wartości p są oczywiście potrzebne, ale dalece nie wystarczające; ślepe stosowanie wartości p uważa się za jedno ze źródeł kryzysu powtarzalności wyników (reproducibility crisis) w nauce. W szczególności nie powinno się ich stosować gdy mamy do czynienia z estymacją, a nie, explicite, testowaniem.

Poza tym, zawsze wyobrażałem sobie, że gdy będę miał te czterdzieści ileś lat, to będę z cynicznym uśmiechem uczył młodych, naiwnych naukowców jak porzucić durne naukowe ideały, by pozyskać lepsze recenzje i impakt faktory. Nigdy nie myślałem, że będzie odwrotnie.

Cytat bonusowy:

Q: Why do so many colleges and grad schools teach p = 0.05? (dlaczego tak wiele uniwersytetów uczy p=0.05?)

A: Because that’s still what the scientific community and journal editors use. (bo tego ciągle używa środowisko naukowe i redaktorzy czasopism)

Q: Why do so many people still use p = 0.05? (dlaczego ludzie wciąż używają p=0.05?)

A: Because that’s what they were taught in college or grad school. (bo tego ich nauczono na studiach)

George Cobb, za Wasserstein i Lazar, „The ASA’s Statement on p-Values: Context, Process, and Purpose”, The American Statistician 70(2), 2016.


Cytat na dziś

07Kwi17

Życie jest wrzodem na tkance wszechświata.

Jerzy Vetulani, 21.1.1936 — 6.4.2017

Podobnie jak w wielu innych podobnych tekstach, autorzy użyli w tym zdaniu angielskiego słowa *treatment* należącego raczej do słownika medycyny i oznaczającego terapię

— Adam Leszczyński, „Eksperymenty na biednych”

Książkę czytało mi się całkiem nieźle, bo jest pełna ciekawych historii, ale w pewnym momencie zaczęły pojawiać się wątpliwości, czy autor rozumie, o czym pisze. Wątpliwości nabrzmiały w okolicach rozdziału o planowanych eksperymentach ekonomicznych. Krytyka ekonomii eksperymentalnej, w której stosuje się ścisłą metodologię (grupy kontrolne, randomizacje itp.) jest oczywiście uzasadniona — należy zastanawiać się nad tym, czy badania są etyczne, czy grupy naprawdę losowe, do jakiego stopnia można ekstrapolować wnioski itp. Natomiast wszystkie te zarzuty stosują się do bardzo wielu nauk eksperymentalnych, a już zwłaszcza do testów klinicznych.

Ale medycyna jakoś sobie z tym radzi, bo innej możliwości właściwie nie ma. Badania muszą oczywiście być przeprowadzane w sposób przemyślany, z zatwierdzeniem komisji etyki i minimalizacją potencjalnych szkód dla uczestniczących. To są prawdziwe problemy i trzeba je rozwiązywać. Czasem wymaga to olbrzymiego trudu albo nakładów finansowych, zgoda, ale alternatywą jest pseudonauka. Co więcej, „badania metodą Angry Birds” (Leszczyński za Angusem Deatonem), czyli metodą prób i błędów, bez grup kontrolnych i starannie zaplanowanych zabiegów, też mają wiele z tych problemów, ale nie dają możliwości, żeby wyniki w jakikolwiek sposób zmierzyć. W efekcie ocena jest wyłącznie w oku patrzącego, co w poprzednim rozdziale Leszczyński szczegółowo zresztą napiętnował.

Wątpliwości, czy autor książki rozumie te zagadnienia, rozwiał powyższy cytat. Nie, nie rozumie. Treatment to w projektowaniu eksperymentu naukowego po prostu zabieg, manipulacja jaką poddaje się jedną z grup (w odróżnieniu od grupy kontrolnej). Treatment effect to efekt naszej manipulacji — czy w porównaniu do grupy kontrolnej zabieg przyniósł jakiś mierzalny skutek. Nie ma znaczenia, czy piszemy o biologii, chemii, medycynie czy ekonomii eksperymentalnej, bo to pojęcie występuje we wszystkich naukach eksperymentalnych i statystyce. Nie da się przeczytać ze zrozumieniem pracy naukowej i jednocześnie nie wiedzieć, że treatment to nie terapia.

Próbowałem czytać dalej, ale na każdym kroku zastanawiałem się, czy autor aby czegoś nie przekręcił; jak to było właściwie w oryginale; czy praca, którą cytuje, rzeczywiście stwierdza to, co nam przekazuje autor. Było to tak irytujące, że po kolejnym rozdziale cisnąłem książkę w kąt, tzn. usunąłem z czytnika.


tl;dr: pod pozorem pisania o polityce opowiadam o przedziałach ufności (czyli kapeluszach), korelacji i lokalnej regresji wielomianowej (loess). I odpowiadam na pytanie, czy Schetynie rośnie, i dlaczego, oraz czy Razem wejdzie. Z góry przepraszam za chaos i błędy — zacząłem pisać notkę bardzo dawno temu, i teraz na chybcika skończyłem je na seminarium…

„Rośniemy w siłę!” – twierdzi Platforma Obywatelska. „PO jest w natarciu” twierdzi Tygodnik Powszechny, bo „rosną jej sondaże”. Członkowie Razem z mojej bańki cieszą się, że „Razem wejdzie do Sejmu”. Wszystko opiera się na opublikowanych niedawno sondażach, a te są przekonujące:

Wygląda nieźle, prawda? W każdym razie, o ile nie obejrzy się tych badań w kontekście wszystkich sondaży przeprowadzonych przez ostatnie półtora roku:

Dane ze 122 sondaży wyborczych od 1.7.2015 do 17.3.2017. Linie przerywane odpowiadają wynikom wyborów.

Ups. Jak widać, wyniki sondaży są bardzo zmienne, i ciężko dostrzec jakiś systematyczny trend. Co więcej, wygląda na to, że wkrótce po wyborach wszystkie partie zajęły mniej lub bardziej stałe miejsce w sondażach, wokół którego oscylują. To co w końcu z tym PO, wzrosło im, czy nie? Czy sondaże to tylko wróżenie z fusów, a nagroda za przewidzenie wyniku wyborów słusznie nazywa się Złotym Pucharem Pytii?

Na szczęście z pomocą może nam przyjść statystyka.

Sondaże są oparte zazwyczaj na dobrowolnej odpowiedzi około tysiąca zapytanych mniej lub bardziej losowo wybranych osób. Te wszystkie założenia prawie na pewno nie są idealnie spełnione — dowód na to, że nie są, będzie za chwilę.

Zacznijmy jednak od tego, że nawet, jeśli osoby te są naprawde losowo wybrane, i nawet, jeśli wszystkie udzielone odpowiedzi w doskonały sposób odzwierciedlają decyzję, jaka dana osoba podjęła by przy urnie, to wyniki sondażu będą obarczone pewnym losowym błędem. Gdy rzucimy tysiąc razy doskonale wyważoną, uczciwą monetą, nie oczekujemy, że otrzymamy dokładnie 500 reszek i 500 orłów, prawda¹? Czasem będzie trochę więcej orłów, a czasem reszek. Czasem trafi nam się wśród respondentów większa proporcja wyborców PO niż wśród wszystkich głosujących, a czasem mniejsza. Ile i jak często, może nam powiedzieć statystyka, albo prosta symulacja. Poniższy obrazek powstał przy założeniu, że prawdziwe poparcie dla poszczególnych partii jest dokładnie takie, jak wskazuje jeden z nowszych z sondaży (PO – 27%, PiS – 29% itd.). Program symulacji sto razy wybrał losowo 1000 respondentów, i oto wyniki:

Nie ma aż takiej zmienności jak na pierwszym obrazku, ale widać, że wahania sięgają trzech punktów procentowych — w obie strony. Kiedy patrzymy na słupki sondaży, warto więc przypomnieć sobie pojęcie przedziału ufności.

Przedział ufności to kapelusz². Już tłumaczę.

Na ziemi leży moneta. Rzucamy na nią kapeluszem. Wynik rzutu jest jednoznaczny: albo, z pewnym prawdopodobieństwem, nakryliśmy kapeluszem monetę, albo nam się to nie udało. Ta moneta to poparcie, które uzyskalibyśmy przeprowadzając prawdziwe wybory (nazwijmy sobie ją „PPP”, „prawdziwie prawdziwe preferencje”). Przeprowadzając sondaż, z pewnym prawdopodobieństwem trafimy blisko prawdziwej wartości PPP. 95%-owy przedział ufności to taki specjalny kapelusz, którym udaje nam się nakryć monetę w 95% przypadków. Jeśli przeprowadzimy 100 sondaży, to przedział ufności gwarantuje nam³, że średnio w 95 z nich PPP będzie w obrębie 95%-owego przedziału ufności. Jednak w przypadku konkretnego sondażu albo trafiliśmy kapeluszem, albo nie, tak że mówienie o prawdopodobieństwie nie ma sensu⁴.

Wiem, że to trochę zagmatwane, i może dlatego nigdy wraz sondażami nie podawane są przedziały ufności. Co oznacza, że przedział ufności wyniósł 27-33%? Że z prawdopodobieństwem 95% trafiliśmy tym sondażem tak, że prawdziwa wartość leży gdzieś w tym przedziale. Ale czy leży bliżej średniej, czy dalej — tego nie możemy wiedzieć.

Przedział ufności dla proporcji (czyli wyników sondaży) można policzyć, ale na potrzeby czytania sondaży warto zapamiętać, że przy badaniu 1000 respondentów:

  • Dla poparcia rzędu 30-40%: 95%-owy przedział ufności wynosi ok. 3pp w górę i w dół
  • 20-30%: ok. 2.5pp
  • 10-15%: ok. 2pp
  • 3-5%: ok. 1pp

Jeśli więc poparcie jakiejś partii wyniosło, powiedzmy, 27%, to należy sobie to przetłumaczyć na „24.5 — 29.5”. A jeśli 5%, to tak naprawdę myślmy „4-6%”. To jest minimum niepewności, które zawsze powinniśmy uwzględnić czytając sondaże. Poparcie z sondażu może wzrosnąć lub spaść o 6% i nie będzie w tym niczego niezgodnego z hipotezą, że prawdziwe poparcie się nie zmieniło!

Co gorsza, powyżej (i poniżej też) widać, że nawet takie oszacowanie błędu nie oddaje sprawiedliwości rzeczywistemu rozrzutowi sondaży. Tak naprawdę jest większy, niż przewidują to proste przedziały ufności. Z czego to wynika? Najwyraźniej nie są spełnione założenia: sondaże nie są zależne, próba najprawdopodobniej nie całkiem losowa i tak dalej. Albo PPP zmienia się szybciej, niż by się to wydawało.

Tak naprawdę najbardziej interesuje nas jednak zmiana poparcia w czasie: rośnie, czy maleje? Przybyło, czy ubyło? W statystyce najprostszym sposobem modelowania zmiany jakiejś wartości (np. poparcia) w zależności od drugiej (np. czasu) jest regresja liniowa. Niestety, regresja liniowa zakłada, że poparcie jednostajnie rośnie albo maleje. To oczywiście nie jest prawda, dlatego zastosujemy dalekiego kuzyna regresji liniowej — lokalną regresję wielomianową. W szczególności metodę znaną jako LOESS. Zamiast opisywać tutaj szczegóły, pokażę, jak to wygląda w praktyce:

Po lewej są same pojedyncze sondaże (dla jednej z partii), po prawej — również krzywa loess (ciemnoniebieska linia pośrodku) z przedziałami ufności (ciemniejsze pole) i przedziałami prognozy (jaśniejsze pole).

…prognoz? Ugh, zapomniałem wyjaśnić. Otóż są dwie sprawy. Po pierwsze, mamy jakieś (nieznane) prawdziwe preferencje (PPP), które poznać możemy jedynie przeprowadzając prawdziwe wybory. Przedział ufności gwarantuje³ nam, że PPP leży w 95% wypadków w obrębie tego ciemnego pasa pośrodku. Ale prawdziwy sondaż jest wypadkową dwóch składników: PPP oraz przypadku (na który składają się losowanie 1000 respondentów i ewentualne inne błędy). Dlatego nawet jeśli PPP jest w obrębie tego ciemnego pasa, kolejny sondaż, który przeprowadzamy — niekoniecznie. Po to jest przedział prognozy: w nim będzie zawartych 95% przeprowadzanych konkretnych sondaży.

Teraz możemy spojrzeć na wszystkie partie. Żeby uprościć nieco obrazek, dzielę go na trzy części: pisopo.nton u góry, potem jedne płotki, potem drugie płotki:

Pierwszy wniosek z powyższego: co prawda PO rzeczywiście rośnie w siłę, ale dzieje się to wyłącznie kosztem .N! Nie ma oznak, żeby poparcie dla PiS znacząco malało; być może ostatnie sondaże są rzeczywiście pierwszymi oznakami zmiany, ale na razie nie odstają zbytnio od dotychczasowego przedziału prognoz.

To, że PO i .N wymieniają się głosującymi i jeden zyskuje, gdy drugi traci, najlepiej widać na obrazku przedstawiającym korelację (lewy panel):

Oczywiście, każda partia której poparcie zmienia się w czasie będzie silnie korelować z każdą inną partią, której poparcie również zmienia się w czasie (bo obie zależą od czasu). Dlatego powyżej na obrazku po prawej przedstawiam korelację wartości resztowych z modelu zależnego od czasu. Innymi słowy, odejmuję od danych tę ich część, która zależy od czasu; reszta nie koreluje z czasem — a mimo to .N nadal koreluje z PO.

Jeszcze śmieszniej będzie, jak sobie obejrzymy Ponton, czyli PO + .N:

Nie, PiS nie wygrał przez Razem, które odebrało głosy SLD. PiS wygrał dzięki Ryszardowi Petru, który odebrał głosy PO (albo vice versa). Inna sprawa, że o ile PO nie pokazuje negatywnej korelacji z PiS, o tyle .N i PiS są silnie negatywnie skorelowane (korelacja wartości resztowych dla PiS / .N wynosi -0.53). Tutaj aż się prosi bardziej złożona analiza wyjaśniająca, gdzie przyczyna, a gdzie skutek (to się da zrobić w takiej sytuacji), ale nie mam na to czasu.

Co do innych partii: Razem jest dość stabilnie poniżej swojego wyniku wyborczego, niemniej jednak słabo bo słabo, ale idzie w górę (reszty nie omawiam, bo mnie nie interesuje). Może dojdzie. Koreluje pozytywnie z Korwinem, nie koreluje z SLD, ale koreluje negatywnie z PiSem (sondaże z silniejszym PiSem pokazują słabsze Razem, i vice versa), co mogłoby sugerować, że aby zyskać, Razem powinno przede wszystkim celować w przeciągnięcie wyborców PiSu (but it’s complicated).

Jeszcze dwie rzeczy są ciekawe. Na poniższym obrazku bynajmniej nie ma pokazanych dwóch partii: wszystkie punkty to wyniki z różnych sondaży dla tej samej partii — .N po lewej, PiSu po prawej. Dwa kolory natomiast oznaczają dwie różne instytucje, które przeprowadzały sondaż:

Fascynujące! Niezależnie od tego, czy wynika to ze spizgu, czy po prostu różnic w przyjętej metodologii badawczej, istnieje wyraźny, systematyczny trend odróżniający te dwie grupy sondaży. Natomiast trend znika w okolicy wyborów. Może mieć to też wpływ na korelacje, które liczyłem powyżej (nie sprawdzałem tego).

Druga sprawa: na obrazkach powyżej widać wyraźną nieciągłość w okolicy wyborów. Po pierwsze, sondaże konwergują bardzo silnie blisko PPP w dzień wyborów (oznaczonego na obrazku za pomocą linii przerywanych). Innymi słowy, idąc od lewej, zmniejsza się wariancja wyników sondaży. Po drugie, sondaże po prawej stronie (po wyborach) ulegają często dość gwałtownej zmianie. Dlatego regresja nie trafia w PPP (można temu zaradzić, ale ten tekst jest wystarczająco długi i bez tego).

Teraz ja się będę bawił we wróżenie z fusów.

Otóż hipoteza, którą utworzyłem na podstawie powyższej zabawy jest taka: sondaże dobrze oddają rzeczywistość tylko w okresie przedwyborczym, gdy ludzie naprawdę poświęcają trochę czasu, żeby zastanowić się, na kogo głosować. W tej chwili mają na głowy inne sprawy niż brazylijski serial polityczny w telewizji, dlatego spytani, odpowiedzą (przynajmniej niektórzy z nich) mniej lub bardziej losowo, co im w danej chwili przyjdzie do głowy. Jutro może odpowiedzą zupełnie co innego, bo właśnie zobaczyli w telewizji, że kochanka kota Kaczyńskiego pojechała pontonem na wczasy do Chorwacji blokować mównicę Donalda Tuska.

Dlatego poza okresem tuż przed wyborami sondaże wahają się bardzo znacznie — bardziej, niż wynika to z obliczonych przedziałów ufności, a wahania zależą silnie od przyjętej metodologii. PPP nie jest więc jakąś stałą wartością w populacji, ale samo w sobie jest zmienną losową, której parametry zależą od tego, gdzie na osi czasu się znajdujemy.

Taką hipotezę można sprawdzić — po pierwsze, można poczekać do następnych wyborów i zobaczyć, czy moje przewidywania są słuszne. Poza tym można sprawdzić jak to wygląda w innych krajach. Have fun!

¹ zwłaszcza, jeśli rzucamy jednoeurówką
² nie pamiętam, gdzie przeczytałem tę metaforę, ale jest bardzo dobra.
³ przy spełnionych pewnych założeniach, np. o losowości próby
⁴ w tzw. frekwentystycznym rozumieniu świata. W bajezjańskim prawdopodobieństwo jest miarą naszej subiektywnej informacji, więc taka interpretacja ma sens.