…czasem spędzenie kilku miesięcy w laboratorium oszczędzi pójścia na pół godziny do biblioteki

Żyjemy w pięknych czasach: prawie cała literatura naukowa — przynajmniej w naukach przyrodniczych — dostępna jest online. A coraz więcej ważnych artykułów w ogóle jest za darmo dzięki czasopismom open access. Po co czytać artykuły naukowe?

  • Artykuły naukowe zmuszają do większej staranności i precyzji niż artykuły popularnonaukowe czy prasówki. Każdy artykuł naukowy został przynajmniej raz, a najczęściej dwa razy zrecenzowany przez anonimowego recenzenta — często innego, zazdrosnego naukowca. Artykuł naukowy musi rozdzielać wyniki od ich interpretacji i od spekulacji, prezentować ze szczegółami wszystkie wyniki i metody itd.
  • Wydobywają na światło dzienne rzeczy, z których autorzy nie zawsze są dumni, np. rzeczywistą wielkość obserwowanego efektu albo konkretną grupę, w której go zaobserwowano (np. “jedzenie X zmniejsza zachorowywalność na raka!” zamienia się w “jedzenie X zmniejszyło szansę zachorowania na raka tarczycy o 1% wśród pacjentów pracujących w rosyjskich elektrowniach jądrowych. Efekt nie był istotny statystycznie”).

  • Najczęściej spuszczają powietrze z nadętych tez stawianych przez wydział prasowy uczelni albo brukowce (zresztą czasem brukowce, a w każdym razie gazety bywają nawet rzetelniejsze).
  • Umożliwiają osadzenie artykułu w kontekście: kto już wcześniej co odkrył, co jest naprawdę nowego. Doniesienia prasowe o niedawnym odkryciu paleontologicznym w Birmie zdawały się sugerować przełom. Tymczasem przełom został dokonany już lata temu przez kogo innego (Chrisa Bearda), i to właśnie prace Bearda są warte większej uwagi.

Do szukania literatury najczęściej używa się PubMedu albo Google Scholar. Osobiście wolę Scholara, m.in. dlatego, że łatwo odnaleźć artykuły cytujące jakiś artykuł. Samo szukanie nie jest trudniejsze od googlania, ale warto wiedzieć o paru rzeczach.

Najszybsza metoda czytania pracy naukowej: przeczytać ostatnie zdanie streszczenia (abstraktu). Jeśli autorzy naprawdę coś ciekawego odkryli, mieli konkretną hipotezę, mogą wyciągnąć wyraźne wnioski, to najczęściej odnajdzie się to pod koniec abstraktu. Jeśli pod koniec abstraktu jest ogólnik (“our research furthers the knowledge of transcription in M. pneumoniae”), to zapewne nic konkretnego czy ciekawego nie wyszło. Metoda nie jest stuprocentowa (daleko od tego).

Przeglądówki (reviews) nie tylko są warte czytania same dla siebie, ale są też nieocenionym źródłem odnośników do oryginalnych publikacji.

Liczba cytowań publikacji (tzn. ile razy artykuł został cytowany przez inne artykuły) koreluje do pewnego stopnia z wagą i wartością artykułu.

  • Jest oczywiście cała masa wartościowych artykułów, które nie doczekały się licznych cytowań.
  • Wysoka liczba cytowań jest bardziej pewną informacją niż niska, tzn. wysoka liczba cytowań świadczy najczęściej o tym, że artykuł jest dobry lub ważny, ale odwrotnie słabiej to działa. Niska liczba cytowań nie musi świadczyć o tym, że artykuł jest do niczego. Niestety, artykuły naukowe też poddane są “power law”: kilka najczęściej cytowanych prac zbiera najwięcej odnośników, gdy tysiące innych prac — wcale nie aż o tyle gorszych — zbierają tylko po parę cytowań.
  • W różnych dziedzinach słowa “wiele cytowań” mogą oznaczać różne rzeczy; np. w medycynie liczba cytowań artykułu zazwyczaj jest bardzo wysoka, a na przykład w astrofizyce — dość niska

Impact factor czasopisma to średnia liczba cytowań, które uzyskuje praca opublikowana w tym czasopiśmie.

  • Nie wszystkie artykuły w Nature są znakomite. I odwrotnie, bywa że znakomite lub bardzo ważne publikacje ukazują się w niszowych czasopismach. Słynna praca Manfreda Eigena i Petera Schustera, “A principle of natural self-organization” ukazała się w “Naturwissenschaften” (impact factor 2.5), ale zebrała — wg. google scholar — prawie dwa i pół tysiąca cytowań. Ale to jeszcze nic: praca opisująca algorytm BLAST (basic local alignment and search tool) ma ponad czterdzieści tysięcy cytowań, a ukazała się w Journal of Molecular Biology (impact factor 4). Dzięki Open Access waga przesuwa się z impact factora czasopisma do liczby cytowań konkretnego artykułu.
  • Takie przypadki są jednak rzadkie; jeśli się widzi pracę o rewolucyjnych wnioskach opublikowaną w jakimś tajemniczym czasopiśmie o impact factor bliskim jedności, to nie ma niczego złego w byciu podejrzliwym.
  • Zwłaszcza, jeśli na liście autorów jest przynajmniej jedno znane nazwisko ze znaczną liczbą dobrze cytowanych pracy. Praca nikomu nieznanego naukowca nie będzie miała dużych szans dostać się od razu do Nature; trzeba przejść pośrednie etapy publikując w nieco bardziej specjalistycznych czasopismach. Ale jeśli “big shot” z doświadczeniem, bagażem dobrych publikacji i koneksjami publikuje przełomową pracę w jakimś niskoimpaktowym czasopiśmie, to coś tu nie gra.
  • Nature i Science są bardzo znane i popularne, ale nawet nie są najwyżej impaktowanymi czasopismami. Poza tym w każdej, choćby bardzo małej dziedzinie istnieje jakieś czasopismo (albo kilka), które w obrębie tej dziedziny mają zasłużoną renomę. Stosunkowo niski impact factor “Bioinformatics” nie oddaje sprawiedliwości prestiżowi tego pisma. Niestety, po prostu trzeba to wiedzieć, albo sprawdzić w ISI (jeśli ma się dostęp).

Wyszukiwanie po odnośnikach w przód. Każdy artykuł opiera się na wielu wcześniejszych artykułach, i odwrotnie, jest cytowany przez inne. Jeśli interesują nas wnioski płynące z pewnego artykułu, to trzeba sprawdzić, co piszą (i w jakim kontekście) artykuły, które go cytują. Często po prostu będą się do niego odwoływały we wstępie, ale bywa, że będą z nim polemizowały czy wręcz obalały przedstawione tam wnioski. Czasami prace o błędnych wnioskach są bardzo wysoko cytowane; praca Fleischmanna i Ponsa o zimnej fuzji ma ponad tysiąc cytowań.

Żeby samemu cytować jakąś pracę, trzeba ją przeczytać. W trakcie szukania literatury często czytam prace po łebkach, może nawet same streszczenia. Ale jeśli się chce zacytować taką pracę (nawet w prywatnej rozmowie), to trzeba ją przeczytać: zdarza się, że abstrakt jest mylący, albo zbyt optymistyczny. Często bywa tak, że — nie znając języka konkretnej dziedziny — abstrakt się źle zrozumiało. Dla mnie to jest męka, bo mam tendencję do czytania byle jak byle dużo, ale nie ma przebacz. Bywa, że nie ma dostępu do pracy, którą się chce przeczytać; coraz częściej jednak się zdarza, że są wolno dostępne alternatywy (inne prace o podobnych wnioskach).

Najczęściej popełniany błąd to poprzestać na lekturze jednej pracy. Widzę to często u studentów, ale nie tylko. Ktoś robi prezentację na “journal club” (albo wpis na bloga), i referuje tylko jedną pracę, ze wszystkimi szczegółami, ale bez ogarnięcia kontekstu i bez skonfrontowania z innymi wynikami. A zazwyczaj jest przynajmniej jedna inna grupa naukowców zajmująca się dokładnie tą samą tematyką.

Drugi typowy błąd to traktowanie pracy jak objawienia albo dzieła geniusza. Mnóstwo prac — w tym bardzo dobrych — została napisana przez takich samych studentów i doktorantów jak czytelnik; zresztą, profesorzy nierzadko też publikują poza swoją dziedziną. Prace często są pisane na chybcika, “pod recenzentów” (zwłaszcza, jeśli trzeba było korygować manuskrypt zgodnie z zaleceniami recenzenta), bez ładu i składu bo termin grantu goni, każdy stara się też sprawić, żeby praca była możliwie “seksowna”. Sposoby manipulacji — świadomej i nieświadomej — wyników to temat na osobną notkę. W mojej dziedzinie, na ile moge to ocenić, błędy w planowaniu eksperymentów i statystycznej obróbce są nagminne, choć nie zawsze mają większe znaczenie. Niedawno w Nature Neuroscience ukazała się praca poświęcona pewnemu konkrentemu rodzajowi błędu statystycznego. Autorzy zbadali kilkaset publikacji z czasopism z górnej półki. Okazało się, że z tych, w których była szansa na popełnienie tego błędu, połowa go popełniła.

Nie brać niczego na wiarę. Największą przyjemność z czytania artykułów naukowych mam wtedy, gdy mnie artykuł najpierw wkurzy, a potem przekona. Wtedy, gdy podchodzę do czegoś uprzedzony, doszukując się co zdanie dziury w całym, i gdy artykuł zdoła pokonać moje uprzedzenia, pobić moje argumenty i przeciągnąc mnie na swoją stronę. Niestety, z krytykowaniem też nie należy przesadzać, bo można łatwo paść ofiarą efektu Dunninga-Krugera.

Wykrywanie bulszitu. Z czytaniem artykułów jest trochę jak z recenzowaniem ich: nie można ich tak po prostu odrzucić, jeśli się nie potrafi szczegółowo wypunktować dlaczego. Ale jak już zrobiłem sobie taką listę, i skonfrontowałem ją z artykułem (i ewentualnie artykułami, które są cytowane, i artykułami na ten sam temat), i dalej nie bangla, to może faktycznie jest to bulszit. Bulszitu jest więcej niżby się wydawało.


“…there is this great dream of combining artificial intelligence and human stupidity”

Sydney Brenner

Każda dziedzina ma swoich celebrytów, każdy celebryta swoich fanów. Mickiem Jaggerem i Tomem Waitsem mojej dziedziny jest Sydney Brenner, a ja jestem jego fanem. Sydney Brenner mówił dziś w Instytucie Biologii Infekcji Maxa Plancka w Berlinie o ewolucji genomu ludzkiego.


Mecz Francja-Prusy w Jenie, ME 1806, 20000:7500

ResearchBlogging.org

Przez ostatnie tygodnie byliśmy bombardowani mistrzostwami Europy w piłce nożnej (nawet dosłownie, bo na naszym starym blokowisku w Prenzelbergu po golu Niemiec rzucano petardami z okien). Oglądając jakiś mecz zacząłem się zastanawiać, do jakiego stopnia o wyniku meczu decyduje przypadek. Dajmy na to, drużyna A wygrała z B 3:2; jakie było prawdopodobieństwo, że drużyna A by przegrała? Że wynik byłby 2:3? Czy można coś takiego w ogóle policzyć? A czy można policzyć szanse polskiej drużyny wyjście z otchłani grupy? Jeśli można, no to jesteśmy jak Marvin, rzucający od niechcenia prawdopodobieństwami.

Wychodzi mi, że dokonując pewnych niezbyt skomplikowanych i wcale realistycznych założeń jak najbardziej można. Niestety, tylko po fakcie.

Pierwsze założenie jest takie: w konkretnym meczu prawdopodobieństwo strzelenia gola przez jedną z drużyn jest mniej więcej takie samo przez cały czas.

Jak to sprawdzić? Wikipedia podaje nie tylko listę goli, ale też “kto w której minucie strzelił“. Przy pomocy trzylinijkowca w Perlu i paru poleceń można wyciągnąć wszystkie dane i sprawdzić, czy minuty strzelenia gola mają rozkład jednostajny.

I rzeczywiście, mają. Można to sprawdzić przy pomocy testu χ2. Test na zgodność z rozkładem jednostajnym daje p= 0.4. Oznacza to, że rozkład jednostajny da podobne (lub bardziej jednorodne) wyniki w 40% wypadków. Można więc przyjąć, że prawdopodobieństwo strzelenia gola jest średnio w każdej minucie takie samo. Poniżej porównuję obserwowany rozkład z rozkładem jednostajnym (po lewej) i normalnym (po prawej). To są tak zwane wykresy kwantyli (Q-Q plots). Im bardziej punkty leżą na prostej linii, tym bardziej rozkłady są do siebie podobne. Jak widać, obserwowany rozkład minut, w których padły bramki, bardzo przypomina rozkład jednostajny.

Oczywiście, w konkretnym meczu to nie zawsze będzie prawda. W finale Hiszpanie grali z Włochami; ponieważ w momencie kontuzji jednego z graczy w 60′ Włosi wykorzystali już swoje wszystkie dozwolone wymiany, do końca meczu grali w osłabionym składzie — prawdopodobieństwo strzelenia gola przez Hiszpanów najwyraźniej wzrosło. W ogóle, każda wymiana zawodników albo zmiana strategii po przerwie może zmienić prawdopodobieństwo strzelenia gola. Jednak powyższy test przekonuje nas, że przynajmniej nie ma dużych różnic systematycznych (np. takiej, że gole raczej padają w drugiej połowie meczu, albo wyjątkowo rzadko w pierwszych minutach). Drugiego argumentu za przyjęciem tego założenia dostarczy mi za chwilę pruskie konie.

Kolejne założenie jest właściwie trywialne: prawdopodobieństwo, że dwa gole zostaną strzelone równocześnie jest zerowe.

Wreszcie trzeba założyć, że każdy gol jest niezależnym zdarzeniem. Jest to nieintuicyjne: wydaje się, że strzelenie gola znacząco wpływa na morale obu drużyn, i może ułatwić (bądź utrudnić, zależy jak patrzeć) strzelenie następnego. I to jednak można sprawdzić. Otóż jeśli strzelenie jednego gola znacząco zmienia prawdopodobieństwo strzelenia następnego, to czas do strzelenia pierwszego gola powinien się znacząco różnić (w jedą bądź w drugą stronę) od czasu między pierwszym a drugim golem. Ale się nie różni (test t dla par, p = 0.6).

Rzecz jasna, w obrębie jednego meczu albo dla konkretnej drużyny to może nie być prawda. Nie sposób łatwo tego stwierdzić, choć podejrzewam, że ktoś to już przeanalizował na podstawie większych zestawów danych (ba, myślę nawet, że chodzi o rutynową analizę dostępną dla trenerów drużyn piłkarskich).

Wreszcie, potrzebne jeszcze jedno założenie: gole, które strzeliła drużyna A nie wpływają na prawdopodobieństwo strzelenia gola przez drużynę B. Można oczywiście wyobrazić sobie, że wpływają: może drużyna B zostanie zmotywowana do lepszej pracy, może trener postanowi zmienić strategię, może wprowadzi nowych zawodników. Albo przeciwnie: gol drużyny A zdemotywuje drużynę B. Tym niemniej jednak nie mam dość danych, żeby to założenie sprawdzić, a ponieważ scenariuszy, jak widać, jest bezliku, stosunkowo bezpiecznie można założyć, że są to procesy niezależne.

Podsumowując te nieco nierealistyczne, ale też nie kompletnie z gwiazd wzięte założenia:

  • Gole są zdarzeniami niezależnymi
  • Strzelenie gola jest w jednej chwili równie prawdopodobne co w innej
  • Można strzelić conajwyżej jednego gola na raz

Takie coś nazywane jest procesem Poissona.

Proces Poissona w najprostszym wydaniu pozwala określić prawdopodobieństwo pewnego wyniku (liczby goli strzelonych przez drużynę A) w określonym czasie (na przykład 90′). Funkcja prawdopodobieństwa w tym wypadku zależy od czasu i pewnego parametru, określającego średnią liczbę goli strzelonych na jedną jednostkę czasu (tradycyjnie określa się ten parametr grecką literą λ). Jeśli w pewnym meczu drużyna A strzela średnio 3 gole na 90 minut, a drużyna B 1 gol na 90 minut, to prawdopodobieństwa strzelenia innej liczby goli przez jedną i drugą drużynę wyglądają tak:

Powyższe wykresy to rozkład Poissone’a dla różnych parametrów λ. Nie będę tutaj przytaczał wzoru tej funkcji, bo zawiera wykrzykniki i literkę e.

Parametr λ dla drużyny A zawiera, oczywiście, wpływ drużyny B: im drużyna B lepiej gra, tym szansa strzelenia przez drużynę A gola, (parametr λ) jest niższa. Można powiedzieć, że parametr λA to “siła” drużyny A w stosunku do B. W meczu może być tak, że obie drużyny są silne wobec siebie, i wtedy wynik jest obustronnie wysoki; może być też tak, że obie są słabe, i wtedy wynik jest bliski 0:0 (jedenastki pozostawiam jako ćwiczenie).

Kiedy pisałem tę notkę, zajrzałem do Wikipedii by znaleźć przykłady procesów Poissona. Klasycznym przykładem jest rozpad promieniotwórczy i konie w pruskiej armii; ale Wikipedia podaje jeszcze jeden przykład… goli w piłce nożnej — na podstawie artykułu Heuera z 2010 roku. Tak że nie jestem odosobniony w swoich przemyśleniach; ale na wszelki wypadek nie przeczytałem tego artykułu.

Z tymi pruskimi końmi to w ogóle ciekawa sprawa, i ma znaczenie dla moich rozważań. Przypadek opisał niemiecko-rosyjski statystyk polskiego pochodzenia, Władysław Bortkiewicz vel Ladislaus von Bortkiewicz (wiele źródeł pisze o nim “rosyjski statystyk”, jednak większą część życia spędził w Berlinie i większość swoich prac opublikował w Niemczech). Bortkiewicz zebrał dane dotyczące dziesięciu korpusów pruskiej armii z dwudziestu tomów urzędowej Preussische Statistik; każdy tom opisywał jeden rok. Tak naprawdę, tych korpusów było czternaście, ale cztery zostały usunięte przez Bortkiewicza a priori, ponieważ miały inną strukturę. Dla każdego korpusu i każdego tomu Bortkiewicz wynotował liczbę przypadków choroby Bortkiewicza, choroby śmiertelnej niejako z definicji: to znaczy, liczbę przypadków śmierci żołnierza w wyniku kopnięcia przez konia. Serie te znakomicie dały opisać się rozkładem Poissona; parametr λ opisuje tu średnią liczbę zabitych osób na rok na korpus i wynosi ok. 0.67.

Bortkiewicz użył tego przykładu dla ilustracji czegoś, co nazwał “prawem małych liczb” (law of small numbers, LSN), w nawiązaniu do Poissonowskiego “prawa wielkich liczb”. Prawo małych liczb to bywa źle rozumiane (Quine & Seneta 1987), a chodzi o rzecz następującą: jeśli ma się do czynienia z pewną niewielką liczbą obserwacji, z których każda pochodzi z innego procesu Poissona o innym parametrze λi, to wzięte do kupy wyglądają — i można je tak traktować — jakby pochodziły z jednego procesu Poissona o jednym parametrze λ. Bortkiewicz pokazał, że mimo iż w każdym korpusie liczba śmierci od końskiego kopnięcia na rok była trochę inna (parametry λi różniły się dla różnych korpusów), to mimo to można było zebrać wszystkie dane ignorując podział na korpusy i uzyskać świetne przybliżenie rozkładem Poissona o jednym parametrze λ. To ważne, bo dodatkowo wspiera nasze założenie o jednorodności parametru λ w czasie całego meczu.

Wpływ Bortkiewicza na rachunek prawdopodobieństwa i statystykę (i nie tylko, Bortkiewicz zajmował się i teoriami Marksa, i rozpadem promienitwórczym) jest na tyle duży, że “rozkład Poissona” według niektórych powinien się nazywać “rozkładem Bortkiewicza”. Poisson co prawda wyprowadził wzór tej funkcji (jako granicę rozkładu dwumianowego), ale czyniąc to, niewiele rozwinął wcześniejszą pracę osiemnastowiecznego matematyka, Abrahama de Moivre’a. Ani Poisson, ani de Moivre nie rozumieli znaczenia tej funkcji ani jej konsekwencji dla statystyki, które w pełni zostały objaśnione dopiero w pracach Bortkiewicza (Good, 1986).

I.J. Good and others have argued that the Poisson distribution should be called the Bortkiewicz distribution, but then it would be very hard to say or write

Tianhyi Zheng

Wracając do futbolu: ponieważ założyłem, że strzelanie goli przez obie drużyny jest niezależne (pomijając wpływ jednej drużyny na parametr λ drugiej drużyny), to mogę policzyć prawdopodobieństwo konkretnego wyniku (np. 3:1) mnożąc prawdopodobieństwo strzelenia dokładnie trzech goli przez A (0.22) przez prawdopodobieństwo strzelenia dokładnie jednego gola przez B (0.37). Innymi słowy, przybliżam więc mecz przy pomocy dwóch procesów Poissona: jednym jest strzelanie goli przez drużynę A, drugim — strzelanie goli przez drużynę B.

Poniższa ilustracja przedstawia prawdopodobieństwa wszystkich wyników (dla mniej niż 7 goli każdej drużyny, liczby w kółkach to prawdopodobieństwa konkretnego wyniku):

Niespodzianka: prawdopodobieństwo, że wynik będzie dokładnie 3:1 wcale nie jest takie wysokie (0.08)! Równie dobrze mogło być 2:1, 3:0 albo 2:0. To oczywiście nie zmieniłoby wyniku meczu, ale sumując prawdopodobieństwa, można policzyć prawdopodobieństwo wygranej drużyny B (0.09) albo remisu (0.13). Prawdopodobieństwo, że przy takim rozkładzie sił (drużyna A ma trzykrotnie większe szanse na wkopanie piłki do bramki niż drużyna B) drużyna A nie wygra jest prawie 1/4. To wcale nieźle! Wynik meczu, nawet jeśli nie zmienia się rozkład sił, wcale nie jest przesądzony, całkiem sporo zależy od przypadku.

Pozostał jeszcze jeden statystyczny myk, a mianowicie — skąd wiadomo, jakie wartości mają parametry λA i λB w danym meczu? Trzeba je jakoś oszacować. Dla mnie najbardziej intuicyjną metodą jest oszacowanie najwyższego prawdopodobieństwa metoda najwyższej wiarygodności. Nie jestem całkiem pewien polskiego określenia; po angielsku mówi się “Maximum Likelihood Estimation” (MLE). Parametr λ decyduje o prawdopodobieństwie uzyskania pewnego wyniku. Wynik jest znany (np. trzy gole dla Portugalii). Dobiera się λ w ten sposób, by prawdopodobieństwo uzyskania wyniku “trzy gole w meczu” było możliwie największe. Oczywiście, prawdziwy parametr może być inny, no ale go nie znamy — w tym cała statystyka. Jeśli za jednostkę czasu obierze się cały mecz (90′, pomijając dogrywkę, którą pozostawiam jako ćwiczenie), to λ w trywialny sposób będzie liczbą goli strzelonych podczas meczu. Tak naprawdę, nie ma potrzeby zaprzęgania tu MLE; ale MLE jest moim zdaniem bardzo intuicjne, no i wreszcie cały artykuł służy przemycaniu rachunku prawdopodobieństwa pod płaszczykiem dyskusji ME.

Ciekawa rzecz dzieje się, jeśli jakaś drużyna podczas meczu nie strzeliła żadnego gola. Wówczas oszacowany parametr (fachowo: estymator) jest równy zeru. To znaczy, że drużyna nie miała żadnych szans na strzelenie gola; jakikolwiek wynik, w którym strzeliła chociaż jednego gola, ma zerowe prawdopodobieństwo.

Teraz czas, by przyjrzeć się konkretnym drużynom. I konkretnym meczom.

Pierwsze pytanie: czy Polska mogła, ekhm, wyjść z grupy? Można dla każdego meczu policzyć prawdopodobieństwo wygranych bądź remisu, i policzyć (zakładając niezależność wyników każdego meczu) prawdopodobieństwo każdej kombinacji. Na przykład weźmy mecz Polska – Rosja, w którym uzyskano remis 1:1 (nie przechodzi mi przez klawiaturę zdanie “uzyskaliśmy”; jakie kurna uzyskaliśmy, ja nawet kopnąć piłki dobrze nie potrafię).

Jak widać, prawdopodobieństwo wyniku 1:1 nie jest wcale takie duże; a jeśli policzyć, okazuje się, że prawdopodobieństwo remisu wynosiło 0.3; zaś wygrania dla każdej z drużyn — 0.35. Czyli z prawdopodobieństwem 0.35 Borussia Dortmund polska drużyna mogła wygrać ten mecz.

Dla każdego z sześciu meczy w grupie można policzyć prawdopodobieństwo wygranej drużyny A, drużyny B oraz remisu. Dla danej kombinacji wyników z sześciu meczu, można policzyć prawdopodobieństwo takiej kombinacji. Istnieje 3^6 = 729 możliwych kombinacji wyników, i dla każdej z nich można policzyć prawdopodobieństwo. Wreszcie, starczy zsumować prawdopodobieństwa tych kombinacji, w których drużyna polska wyszła z grupy. Oczywiście, można to policzyć dla każdej z czterech drużyn w grupie.

Wyniki, czego można oczekiwać, bardzo przypominają liczbę punktów otrzymanych po wszystkich rozgrywkach grupowych:

Drużyna Punkty Prawdopodobieństwo
Czechy 6 0.72
Grecja 4 0.56
Polska 2 0.29
Rosja 4 0.43

(Nb powyższe prawdopodobieństwa nie sumują się do 1 — dlaczego?)

Niby wyniki nie zaskakują (teraz mogę powiedzieć: I’ve calculated your chance of survival, but I don’t think you’ll like it). Mimo to ciekawe, że nie zmieniając rozkładu sił i względnej siły drużyn, polska ekipa miała niemal 30% szans na grę w ćwierćfinale.

Jako ostatnie już ćwiczenie pozostawiam policzenie prawdopodobieństwa, że polska ekipa uzyskała tytuł mistrza Europy. Dla ułatwienia podam, że kompletnie nie da się tego policzyć tak, jak pokazałem to powyżej.

Literatura

L. v. Bortkiewicz (1898). Das Gesetz der kleinen Zahlen Leipzig, Germany: B.G. Teubner DOI: 10.1007/BF01707919
I. J. Good (1986). Some Statistical Applications of Poisson’s Work Statistical Science, 1 (2) DOI: 10.1214/ss/1177013690


quantophrenia, n. /ˌkwɒntəˈfriːnɪə/: Undue reliance on or use of facts that can be quantified or analysed using mathematical or statistical methods; inappropriate application of such methods, esp. in the fields of sociology and anthropology

Oxford English Dictionary


[Anatoly] Vershik and [Jim] Carlson were having tea. Yau’s name came up; he was apparently holding a conference to celebrate his fifty-ninth birthday. “I don’t understand it,” Vershik grumbled. “I know Gian-Carlo Rota held a conference to celebrate his sixty-fourth birthday, but sixty-four is two to the sixth power — and what is fifty nine? A prime number!”

– Perfect Rigor, Masha Gessen


ResearchBlogging.org

Internetsy obiegła wiadomość, że człowiek nie pochodzi z Afryki, tylko z Azji.

“Od­kry­cie w Bir­mie ko­pal­nych szcząt­ków nie­wiel­kie­go zwie­rzę­cia Afra­sia dji­ji­dae ży­ją­ce­go 37 mln lat te­mu sta­wia na gło­wie do­tych­cza­so­wą wie­dzę o po­cho­dze­niu czło­wie­ka. Do­wo­dzi, że gru­pa ssa­ków na­czel­nych, z któ­rych w pro­ce­sie ewo­lu­cji na­ro­dzi­ły się mał­py i lu­dzie, przy­by­ła do Afry­ki z Azji.

Przez wie­le lat na­ukow­cy są­dzi­li, że po­czą­tek ewo­lu­cji ssa­ków na­czel­nych miał miej­sce w Afry­ce.”

(Rzeczpospolita)

No więc nie, nie sądzili, nie naczelnych i nie stawia na głowie.

Oznacza to, że ci wcześni przodkowie człowieka skolonizowali Afrykę mniej więcej w tym okresie, z którego pochodzą oba znaleziska.

(Wyborcza)

No więc nie, nie oznacza, nie przodkowie i nie w tym okresie.

1. Naczelne to grupa ssaków do których należą między innymi król Julian, wyraki, małpy właściwe, małpy człekokształtne i człowiek. Najstarsza znana skamieniałość pochodzi sprzed 58 mln lat — to Plesiadapis, który występował w Europie i Ameryce Północnej; inne wczesne naczelne występowały też w Azji (czy zauważyliście, że w tym zdaniu nie pada słowo “Afryka”?). Możliwe, że początki całej grupy sięgają jeszcze dinozaurów.

2. Pochodzenie naczelnych to jedna sprawa. Pochodzenie człowieka to druga. W przypadku tej drugiej, od lat nie ma większych wątpliwości, że człowiek pochodzi z Afryki. Odkrycie naukowców z Francji i Birmy żadnej z tych dwóch spraw bezpośrednio nie dotyczy.

3. W przypadku artykułu z PNAS chodzi o trzecią sprawę, czyli o początki ewolucji małp właściwych. Pewne nieporozumienie może się brać stąd, że angielskie “anthropoids” odnosi się do małp właściwych (czyli np. także pawianów), natomiast polskie “małpy człekokształtne” to “hominoidea”, czyli “apes” — gibbony, orangutany, szympansy, goryle i ludzie.

W tabelce poniżej podaję przybliżone daty powstania grup.

Łacina Angielski Polski Wiek
Primates Primates Naczelne ok. 65 mln lat
Simiiformes / Anthropoidea Simians / Anthropoids Małpy właściwe ok. 40 mln lat
Hominoidea Apes Małpy człekokształtne ok. 30 mln lat
Hominidae Hominids / great apes Człowiekowate / hominidy < 10 mln lat
Homo Human Człowiek 2-4 mln lat

Mówiąc o ewolucji czy pochodzeniu człowieka, najczęściej ma się na myśli ewolucję człowiekowatych albo samego rodzaju Homo.

4. Drugie nieporozumienie może się brać z sugestywnego tytułu z Science: ”An Asian origin for human ancestors?”  Mowa jest jednak nie o pochodzeniu ludzi, tylko o pochodzeniu przodków ludzi, czyli przodkach do kwadratu, drugiej pochodnej po przodkach. No, a poza tym, tak, czy siak, wszyscy wyrastamy z jednego pnia, więc formalnie, choć czepialsko, to jeśli ktoś znajdzie nowego dewońskiego tiktaalika w Chinach, to też można mówić o “stawianiu na głowie tez o pochodzeniu człowieka”.

5. Fajno, czyli o co chodzi? Autorzy artykułu znaleźli zęby, powiem więcej: znaleźli cztery zęby, po czym jak Cuvier, opisali całe zwierzę (Afrasia djijidae) i jeszcze zawrócili bieg historii.

Z zębów ssaków można wyczytać bardzo wiele, co właśnie pokazał niegdyś Cuvier, w dodatku są to najtwardsze elementy szkieletu, więc najlepiej się zachowują.

Zęby były bardzo podobne do zębów innego zwierzątka z tamtego okresu, o nazwie Afrotarsius libycus. W nazwie, jak widać, pojawia się nie tylko Afryka, ale nawet i Libia. Z Afrotarsiusa też zresztą zostały tylko zęby. Oba zwierzątka — Afrotarsius i Afrasia — wyglądały podobnie. Były to nadrzewne, owadoożerne, niewielkie ssaki. Podobieństwo uzębienia jest w każdym razie tak wielkie, że gatunki należy uznać za bardzo blisko spokrewnione.

6. Afrotarsius i Afrasia występowały w tym samym czasie na dwóch różnych kontynentach, oddzielonych morzem, jak widać na poniższym obrazku (szare dziwne kształty to górne prawe trzonowe zęby Afrotarsiusa i Afrasii). Ponieważ zwierzątka były tak bardzo podobne, to wypada przyjąć, że jakoś w tamtym okresie albo jedno z nich przywędrowało do Azji, albo drugie do Afryki.

Autorzy proponują tę drugą hipotezę, ponieważ analiza filogenetyczna (w oparciu o cechy morfologiczne) łączy Afrotarsiusa i Afrasię z gatunkami z grupy Eosimiidae, które wszystkie znane są wyłącznie z Azji. I tutaj leży pies pogrzebany: Eosimiidae uważa się za najbardziej zbliżone do korzenia grupy małp właściwych, o najliczniejszych cechach prymitywnych. Eosimiidae są stare – Eosimias żył 45 mln lat temu, kilka milionów lat wcześniej niż Afrasia. I rzeczywiście, występują w Azji.

7. Sami autorzy przyznają, że sprawa jest jednak o wiele bardziej skomplikowana. Na przykład dlatego, że prócz Afarasii i Afrotarsiusa w owym czasie po świecie pomykały już inne spokrewnione małpiatki nie należące do Eosimiidae, na przykład Proteopithecus (w Afryce znaleziono wiele skamieniałości tego gatunku, nawet fragmenty czaszek), bardziej zaawansowany i bliższy odległym przodkom naszych przodków niż Eosimiidae. Albo Myanmarpithecus, też z Birmy, którego szczątki pochodzą nawet sprzed 40 milionów lat. Innymi słowy, o ile nawet inne małpy właściwie wywodzą się z Eosimiidae, to w czasie, o którym mowa, już się z nich były wywiodły czy też wyeowoluowały, i to ładnych parę milionów lat wcześniej.

Jeśli nawet Afrotarsius jest Azjatyckim emigrantem w Afryce, to nie była to ta sama fala emigracji, która do Afryki przyniosła prawdziwych przodków małp właściwych. O ile Eosimiidae można uznać właśnie za grupę, do której należeli przodkowie małp właściwych, o tyle Afrasia i Afrotarsius są późniejszym odgałęzieniami tej grupy — to nie przodkowie małp właściwych, tylko wnuki tych przodków z innej odnogi rodziny.

8. Same cztery zęby Afrasii same w sobie nie są chyba przekonującym dowodem na azjatyckie pochodzenie małp właściwych, ale są jeszcze inne powody. Rzeczywiście, przez lata uważano, że małpy właściwe pochodzą z Afryki; opierało się to m.in. na zębach zwierzątek o nazwach Algeripithecus i Azibius, żyjących w Afryce 50 mln lat temu, na długo przed Afrotarsiusem i Afrasią. Stosunkowo niedawno przekwalifikowano je jednak do grupy małp niewłaściwych, “wilgotnonosych” Strepsirhinii, czyli lemurów, lorisów i palczaków, więc odpadły jako wsparcie hipotezy o afrykańskim pochodzeniu małp właściwych. Rzeczywiście, w ostatnich dziesięcioleciach coraz silniejsza staje się hipoteza o azjatyckim pochodzeniu małp właściwych.

I tutaj właściwie dochodzimy do sedna sprawy. Hipoteza azjatycka jest ściśle związana z odkryciem Eosimiasa dokonanym przez Chrisa Bearda pod koniec lat 90′ ubiegłego wieku. Napisał nawet o tym ksiażkę, The Hunt for the Dawn Monkey, a w niej:

Our goal is to test a bold new hypothesis about anthropoid origins — one that moves the birthplace of these remote human ancestors from Africa to Asia while it ruptures the established evolutionary timetable by tens of millions of years.

Jeśli ktokolwiek naprawdę odwrócił na głowię to, co wiemy o ewolucji małp właściwych, to właśnie Chris Beard, i to dziesięć lat temu.

Literatura

Chaimanee Y et al. & Jaeger JJ (2012). Late Middle Eocene primate from Myanmar and the initial anthropoid colonization of Africa. Proceedings of the National Academy of Sciences of the United States of America PMID: 22665790

Polecam też świetną stronę o małpach i ich ewolucji: http://www.willighp.de/index.php. Niestety, po niemiecku, ale niczego w przybliżeniu tak kompletnego po angielsku nie znalazłem.