tl;dr: Eksperymenty na użytkownikach i grzeszne wykresy

20Czer14

As such, [the research] was consistent with Facebook’s Data Use Policy, to which all users agree prior to creating an account on Facebook, constituting informed consent for this research.”

Autorzy badali propagację stanów emocjonalnych przez Facebooka. Ponieważ pierwszy autor (Kramer) pracuje w Core Data Science Team Facebooka, autorzy mieli bezpośredni dostęp „od kuchni”. Dlatego pewnie nie zadowolili się analizą, ale przeprowadzili na użytkownikach FB doświadczenie, manipulując ich newsfeedem. Artykuł bardzo mnie uradował, bo już dawno szukałem tak wyraźnego przykładu pewnego błędu w interpretacji statystycznych testów. A tu mam dwa w jednym.

Eksperyment na użytkownikach przeprowadzono w styczniu 2012. Newsfeed FB jak wiadomo zawiera tylko część wiadomości od użytkowników; które wiadomości (statusy) trafiają do newsfeeda danego użytkownika — o tym decyduje algorytm Facebooka. Eksperyment polegał na manipulowaniu newsfeedem tak, by u jednych użytkowników newsfeed zawierał więcej negatywnych treści, a u innych — mniej. O tym, jakie treści są negatywne, a jakie nie, decydował program zwany LIWC. Mniejsza o to, do jakiego stopnia prawidłowo.

Wybrano dwie grupy użytkowników i odpowiadające im grupy kontrolne. Zależnie od grupy, newsfeedy wybranych użytkowników albo były zubożane w treści emocjonalnie „negatywne”, albo „pozytywne” (tzn. treści, które LIWC ocenił jako takie). Grupa kontrolna również była zubożana, ale całkowicie losowo.

Pytanie, które postawili sobie uczeni, było proste: czy osoby, których newsfeed jest uboższy w treści pozytywne, będą produkowały wiadomości, które też są uboższe w treści pozytywne? I odwrotnie — czy ci, którzy dostają mniej negatywnych wiadomości, będą też pisali mniej negatywnych statusów? Znów, to LIWC oceniał które treści są pozytywne, a które negatywne.

Poniższy wykres ilustruje wyniki w pracy Kramera.
Będę go w przyszłości używał w uczeniu statystyki: jak nie prezentować wyników naukowych.

kramer_facebook

Wygląda pięknie, prawda? W grupie ze zmniejszoną częstością treści negatywnych (lewy panel, jasny słupek) użytkownicy częściej niż w grupie kontrolnej (ciemny słupek) pisali statusy zawierające pozytywne słowa. W grupie ze zmniejszoną częstością treści pozytywnych w newsfeedzie (prawy panel, jasny słupek) użytkownicy rzadziej pisali statusy zawierające pozytywne słowa. Odwrotnie było w przypadku słów negatywnych (tej części rysunku nie widać powyżej).

Niestety, wykres ten grzeszy, i to po trzykroć.

1. Wykresy słupkowe kłamią, oszukują i manipulują. Samo użycie wykresu słupkowego to pierwszy grzech. Zacznijmy od tego, że na pewno nie mamy do czynienia z rozkładem normalnym. Najprawdopodobniej będzie niewielu użytkowników, którzy generują dużo treści, i całe mnóstwo takich, którzy generują mało[*]. Takiej informacji wykres słupkowy nie potrafi pokazać! Dlatego zaleca się stosowanie wykresów pudełkowych czy wiolinowych (Evanko 2014). Trzy diagramy poniżej przedstawiają te same dwie grupy danych (dane są „zmyślone”, tzn. wygenerowane losowo przeze mnie).

ex1_plots

  • Po lewej po prostu naniesione są poszczególne dane („dot plot”). Widać, że obie grupy bardzo się różnią. Ta po prawej „ciąży” do dołu. To znakomity sposób ilustracji danych, ale można go stosować tylko jeśli ich nie jest zbyt wiele.
  • Pośrodku wykres słupkowy (bar plot). Słupki są prawie identyczne, bo średnie i odchylenia standardowe są w obu grupach niemal takie same. Wąsy odpowiadają błędom standardowym.
  • Po prawej wykres pudełkowy.

W wykresie pudełkowym gruba linia to tzw. mediana. Mediana to wartość, która dzieli pewien zbiór wartości na połowę. Np. w zbiorze 1, 2, 10, 100, 1000, mediana to 10, bo po obu stronach dziesiątki jest tyle samo liczb. Mediana bywa bardzo pożyteczna, jeśli nasze dane nie są normalne.

Przykład. W pewnej fabryce wszyscy pracownicy (a jest ich stu) zarabiają tysiąc złotych miesięcznie, z wyjątkiem CEO, który zarabia milion. Która wartość jest bardziej pożyteczna, by CEO zrozumiał, dlaczego go nienawidzą: średnia arytmetyczna, która wynosi ponad dziesięć tysięcy, czy mediana, która wynosi tysiąc?

2. Podobnie rzecz się ma z drugim parametrem, który opisują wąsy. Nie będę się tu dłużej rozwodził, bo to temat na osobną notkę, i nie chcę pokazywać palcem, ale niektórzy naukowcy używają błędu standardowego na wykresach po to, żeby lepiej wyglądały. Użycie błędu standardowego jest drugim grzechem tego wykresu. Błąd standardowy nie opisuje mianowicie prawdziwej zmienności danych, lecz precyzję, z jaką obliczyliśmy pewien określony parametr rozkładu (średnią). Im większą próbkę mamy, tym mniejsze będą wąsy, bo błąd standardowy to odchylenie standardowe podzielone przez pierwiastek z wielkości próby. Oczywiście, jak się bada miliony danych z Facebooka, to te wąsy zawsze będą małe — ale to nie oznacza, że zmienność samych danych jest mała. Gówno wiemy jaka jest ta zmienność, bo z błędu standardowego się nie dowiemy jeśli nie wiemy jakie było N (wielkość próby).

Poniżej wylosowałem dwie grupy wartości. Obie próbki pochodzą z tego samego rozkładu normalnego i mają podobne średnie i odchylenia standardowe. Jak widać na wykresie po lewej (w którym wykres pudełkowy połączony jest z wykresem punktowym), rozrzut jest mniej więcej taki sam — tyle, że w drugiej grupie jest więcej „pomiarów”. Natomiast obliczone błędy standardowe są różne. Przez zastosowanie innej skali i użycie błędu standardowego uzyskałem całkiem przekonywujący obrazek.

ex1_plots_3

Dla odpowiednio dużej próby, błąd standardowy można zredukować praktycznie do zera. Co oznacza, że nawet najmniejszą, tycią, tyciusięńką różnicę można wykryć, jeśli tylko zbierzemy odpowiednią liczbę danych.

3. No właśnie. Skala. Widzicie różnicę między grupą kontrolną i eksperymentalną na pierwszym wykresie, prawda? Spójrzcie jeszcze raz. Popatrzcie na skalę: zaczyna się przy pięć procent słów o określonym ładunku emocjonalnym, a kończy na pięć, przecinek cztery. Różnica między grupą kontrolną i eksperymentalną po prawej stronie wynosi mniej niż 0.2 punkta procentowego.

To trzeci grzech wykresu. Wykresy słupkowe mają swoje zastosowania, i pokazywanie proporcji jest jednym z nich, ale nie wolno w nich manipulować skalą. Wykres pudełkowy będzie wyglądał podobnie niezależnie od skali; ale ponieważ względna wielkość słupków i pokolorowanej powierzchni słupka zmienia się w zależności od tego, jak obierzemy skalę, łatwo manipulować percepcją różnic między słupkami przez dobieranie skali.
Dlatego też wykresy słupkowe powinno się stosować tylko wówczas, gdy mamy do czynienia z danymi takimi jak proporcje, i wtedy skala powinna zaczynać się przy zerze.

ex1_plots_2

Widać więc, że jeśli nawet różnice są istotne statystycznie, to przecież są bardzo małe. To jest zasadniczy problem tego artykułu. „Istotny statystycznie” to nie to samo co „istotny”. Jasne, że przy olbrzymiej liczbie osób, które poddano eksperymentowi, nawet minimalny efekt zostanie wykryty — im większa wielkość próby, tym czulszym narzędziem jest test statystyczny. Ale czy takie różnice mają w ogóle jakieś znaczenie? Autorzy sądzą, że tak, piszą:

And after all, an effect size of d=0.001 at Facebook’s scale is not negligible: In early 2013, this would have corresponded to hundreds of thousands of emotion expressions in status updates per day.

Duh, łatwo jest imponować dużymi liczbami. Ale nie oszukujmy się, po to właśnie korzysta się z wielkości efektu, żeby dać odpór takim sytuacjom: w artykule przecież analizowano setki milionów słów. Nie przeczę, że odkryto różnicę między grupami, ale autorzy użyli bardzo czułych narzędzi statystycznych i olbrzymiej próby — nic dziwnego, że nawet malutkie różnice wyglądają istotnie.

[*] Są też bardziej matematyczne powody żeby tak sądzić. Jako że słowa rozpoznawane przez LIWC jako negatywne czy pozytywne trafiają się rzadko, ich liczba w postach danego użytkownika będzie miała rozkład Poissona mocno przesunięty w lewo. Potwierdzają to — nie wprost — autorzy artykułu, którzy w innym miejscu stosowali regresję Poissona.



26 Responses to “tl;dr: Eksperymenty na użytkownikach i grzeszne wykresy”

  1. 1 Gammon No.82

    Dawaj kiedyś na Mazowsze albo wyślij swój adres fizyczny na wiadomy adres mailowy, książka czeka dla ciebie.

    • 2 January

      Wysłałem Ci odpowiedź na priva, nie wiem, czy dostałeś.

  2. 3 gszczepa

    Przykład z medianą jest idealnym przykładem jak nie zapodawać przykładu z medianą.

    • 4 January

      Rozwiń. Przykład pochodzi z książki Darrella Huffa „How to lie with statistics”.

      • 5 gszczepa

        Bo to idealny przykład na dominantę.

        Która w tym przypadku jest akurat równa medianie, więc tym trudniej zrozumieć o co tak naprawdę chodzi.

        Nie lubie tego przykładu, chociaż wiem że jest popularny, bo spotkałem się z jego efektami wiele razy (ale nie znałem pochodzenia, dzieki!) i osobom które rzeczywiście nie znały wcześniej pojęcia mediany bardzo wdrukowywał 2 błędne skojarzenia, których odkręcanie jest nietrywialne:
        1) mediana to mniej więcej to samo co dominanta, a przynajmniej wychodzi podobnie,
        2) mediana się dobrze nadaje do opisywania tak pokręconych zbiorów.

        Ale żeby to było jasne, cały wpis jest bardzo, bardzo fajny i OK. Czepiam się tylko przykładu z medianą:-)

        • 6 January

          A, rozumiem, tak — nawet myślałem, żeby jeszcze dodać coś o najczęstszej wartości. O ile pamiętam, Huff to też omawia. Dziękuję za mądrą uwagę. Powiedz, jaki przykład byś polecał?

        • Czyli jeśli dobrze rozumiem lepszy byłby przykład: „W małej firmie czterech pracowników zarabia 2 tyś., jeden 3 tyś, dwóch pięć tysięcy a dwóch sześć” Wówczas w szeregu danych 2, 2, 2, 2, 3, 5, 5, 6, 6, medianą będzie 3 tysiące zarobku a dominantą 2 tysiące.

        • 8 gszczepa

          W kancelarii pracuje 10 Adwokatów zarabiających 10k i 10 Asystentów zarabiających 1 tysiąc. Jest też Helpdesk który zarabia 2 tysiące.

          Co się stanie z medianą jak Helpdesk dostanie awans na Admina i zacznie zarabiac 8k?

        • 9 January

          @gszczepa

          OK. a w szeregu 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, … 3.0, 50, 50 modą (dominantą) jest 50.

          Natomiast w Twoim przykładzie z kancelarią właściwie każda „zwykła” statystyka (średnia, mediana, moda) nie wystarczy.

          Mediana z jednej strony najczęściej równie dobrze sprawdza się tam, gdzie jest rozkład normalny, z drugiej — jest dużo lepsza od średniej tam, gdzie są ciągłe i niesymetryczne rozkłady, np. log-normalne, albo rozkłady z ekstremalnymi „obserwacjami odstającymi” (outlierami).

          Na przykład, ogólnie rzecz biorąc, mediana jest pożyteczna i zdaniem niektórych bardziej informatywna niż średnia w przypadku rozkładu dochodów. W tym sensie mój przykład jest uproszczeniem bardziej złożonego rzeczywistego fenomenu (log-normalny rozkład dochodów).

          Druga rzecz, którą ilustruje mój przykład, to użyteczność samego porównania mediany ze średnią arytmetyczną, która informuje nas, że rozkład jest popieprzony (tzn. nie normalny).

        • 10 gszczepa

          @january

          wszystko prawda, ale przykład z kancelarią łatwo pozwala zapamiętać dwie kluczowe informacje:
          1) mediana to wartość środkowa
          2) wartość elementu środkowego to wartość mediany

          Dodanie prostego: A co jak kancelaria zrezygnuje z pracy?
          wskazuje skąd się bierze mediana zbioru parzystego itd.

          Uwaga cały czas jest zwrócona na element który wprowadzamy.

          Niejako gratis dorzuca ostrożność na nadużycia:-)

        • 11 January

          Dobra, to ja powiem tak: masz całkowitą rację jeśli chodzi o przykład tego, czym jest mediana; natomiast ja mam rację jeśli chodzi o to, do czego przydaje się mediana i czemu bywa potrzebna.

        • 12 gszczepa

          @january, zgoda:-)

          ATSD jakbyś polecił coś o statystyce na trochę wyższym poziomie to bym się nie obraził.

        • 13 January

          @gszczepa
          Ja się statystyki uczyłem z jakichś okropnych matematycznych podręczników, a nauczyłem z „BIometrii” Sokala i Rohlffa, którą wszystkim polecam. Natomiast teraz to głównie jakieś tematyczne podręczniki czytuję, typu modele liniowe w R, więc ciężko mi coś konkretnego polecać. Ostatnio kupiłem „Fundamentals of Biostatistics”, ale jeszcze się jej bliżej nie przyjrzałem.

  3. 14 anuszka

    Czym rysowałeś te wykresy?

  4. 16 jirme-jahu

    Skąd ta skala na zielono-szarym wykresie słupkowym? Coś było normalizowane? Standaryzowane?
    Nie mógłby Pan zrobić z oryginalną skalą? – bo takie porównanie nie wygląda na miarodajne.

    • 17 January

      Którym, bo są dwa?

      Zielono-szare są całkowicie zmyślone, nie są oparte o dane z pracy. Jeśli chodzi o drugi zielono-szary wykres, to celowo manipuluję skalą, żeby pokazać, że wykresy słupkowe łatwo się takim manipulacjom poddają. Napisałem to zresztą w tekście i objaśniłem w punkcie trzecim. Nie bardzo wiem też, o jakiej „oryginalnej” skali mowa.

      • 18 jirme-jahu

        Chodzi mi o środkowy z pierwszych trzech zielono-szarych wykresów na zmyślonych danych (rozumiem, że wszystkie trzy są zrobione z tych samych zmyślonych danych). Lewy i prawy mają skalę od -1 do 5, a środkowy nie wiadomo czemu od 0 do 1. Wielkość odchylenia standardowego ma się nijak do wykresów po bokach.
        Kiedy później, w punkcie 2, specjalnie manipuluje Pan skalą, to bierze Pan tylko wycinek skali oryginalnych danych. Ale w punkcie 1, o który się czepiam, musi być jakieś przeskalowanie.

        • 19 January

          Ach. Ale to nie jest odchylenie standardowe, tylko błąd standardowy, jak w pracy Kramera (czyli $$\frac{\sigma}{\sqrt(n)}$$. A skala jest taka, jaka by była, gdyby mi przyjęli do druku taką ilustrację.

        • 20 jirme-jahu

          Ach, pierwiastek z n. OK, liczby się zgadzają na oko. W takim razie przyznaję – tak profesjonalnie pokiereszował Pan te dane, że bym się nie domyślił, że to te same. Trudno o lepszy przykład.
          Dziękuję za odpowiedź i za ciekawą notkę!

  5. 21 a.

    Ciekawy wpis, super się czyta:)

  6. 22 Bio

    Super post! Tylko mam dylemat: wszyscy znajomi naginają statystykę jak się da, żeby ich wyniki łądnie wyglądały w publikacjach. Jak zacznę nagle stosować dobrą statystykę, to moje wyniki zaczną wyglądać dużo gorzej… i jak ja mam wtedy walczyć z kolegami o miejsce w tych samych prestiżowych czasopismach?!

    • 23 January

      To jest przypadek tragedii wspólnego pastwiska (tragedy of the commons). Współczuję Ci, ale mam tak samo. Na szczęście naprawdę prestiżowe czasopisma coraz bardziej uważają na statystykę (patrz seria artykułów w Nature Methods); poza tym, coraz częściej bywa, że ktoś naginający statystykę się natnie i trafi na kolegę po fachu, który się też zna na statystyce.

      • 24 Bio

        Żeby jeszcze wyjaśnić: STATYSTYKA jako taka jest w moich pracach chyba całkiem ok. Jak wiadomo do wszystkiego można się przyczepić, ale jestem spokojny, że wstydzić bym się nie musiał gdyby ktoś się przyjrzał np. temu jakie testy statystyczne kiedy i dlaczego wybieram. I żadnego naginania wyników. Do tego staram się rozróżniać „istotne statystycznie” i „istotne biologicznie”. Ale jeśli chodzi o wykresy to.. łolaboga. Skali nie naciągam, ale tu i ówdzie uświadczysz „bar plot”, a już wszędzie „SEM” jako błąd. I owszem, troszkę mi czasem wstyd mi za samego siebie :(

        BTW: Można prosić o namiary na artykuły w Nat Methods? :)



%d bloggers like this: