poniedziałek, 28 kwietnia 2014

Dlaczego nie warto zajmować się sondażami do eurowyborów?

Ciekawie, chociaż zbyt krótko, odpowiada prof. Mirosław Szreder z Uniwersytetu Gdańskiego na stronach "Rzeczpospolitej".



Najważniejszą trudnością jest niska w naszym kraju frekwencja w wyborach do Parlamentu Europejskiego – 21 proc. w 2004 r. oraz 24,5 proc. w 2009 r. Gdyby więc idealistycznie wyobrazić sobie, że którejś z pracowni udało się wylosować w pełni reprezentatywną próbę respondentów, pozbawioną odmów oraz osób niezdecydowanych, na kogo zagłosują, to i tak ogromnym wyzwaniem pozostaje wskazanie, którzy z nich pójdą do urn 25 maja, a którzy nie.
Struktura preferencji politycznych ogółu uprawnionych do głosowania i tej jednej czwartej (w przybliżeniu), która zagłosuje, może być zupełnie inna. Znane są co prawda techniki badań, takie jak przypisywanie respondentowi subiektywnego prawdopodobieństwa, że weźmie on udział w wyborach, na podstawie serii dodatkowych pytań (ang. likely voter technique), ale nie są one stosowane w typowym badaniu sondażowym, a na dodatek bywają zawodne, o czym przekonał się nawet Instytut Gallupa w chybionej prognozie z ostatnich wyborów prezydenckich w USA.
Wybory do Parlamentu Europejskiego mało kogo obchodzą, a jeszcze mniej osób na nie pójdzie. Statystyka działa całkiem nieźle pod warunkiem, że są dostępne jakieś dane wejściowe. Przy próbie 1000 osób i frekwencji 20% mamy 200 osób, które pytane są o wybór ugrupowania. Każda pojedyncza odpowiedź jest w tej sytuacji warta pół punktu procentowego. Czyli sensacja w rodzaju partia X nad/pod progiem wyborczym może zależeć od odpowiedzi 2-3 osób.

Najważniejszy dla mnie fragment to kolejny akapit:
Wyrazem innych kłopotów ośrodków badawczych w przewidywaniu wyniku wyborczego są dobrze widoczne, znaczne różnice w wynikach publikowanych sondaży. Źródłem tych rozbieżności, wbrew temu, co może sugerować 3-procentowy błąd statystyczny (powiązany z liczebnością próby około 1100 osób), są przede wszystkim czynniki o charakterze nielosowym, głównie odmowy respondentów, a także brak opinii osób niezdecydowanych. Wpływ obu tych czynników na jakość sondaży, w tym na możliwości wnioskowania na ich podstawie o wynikach wyborów, jest coraz większy.
Ten błąd o charakterze nielosowym próbuję usunąć z sondaży wyborów do parlamentu krajowego publikując wyniki modelu nr. 1. Budując mój model założyłem, że istnieje stałe powiązanie pomiędzy pracownią badawczą, a wynikami każdej z partii. Na podstawie tych wyników można sądzić, że GFK najtrudniej dotrzeć do wyborców PSL, więc ich wyniki systematycznie podają poparcie dla PSL obniżone o 2 punkty procentowe:


Drugim wynikiem jest zagregowany rezultat po usunięciu wpływu tych powiązań partia-pracownia:
Liczby w nawiasach po prawej szacują błąd losowy - ten, który można policzyć.

Największym fiaskiem w historii sondażów wyborczych była porażka czasopisma Literary Digest, które na podstawie kart nadesłanych przez czytelników i innych źródeł (sondaż telefoniczny) stwierdziło, że wybory prezydenckie w USA w 1936 r. wygra niejaki Alfred Landon. Wydawało się to zupełnie pewne, ponieważ próba tego sondażu wyniosła UWAGA: 2,4 miliona odpowiedzi.

Tamte wybory wygrał Franklin Delano Roosevelt, co zostało trafnie przepowiedziane przez George'a Gallupa na podstawie sondażu o znacznie mniejszej próbie (niepotwierdzona informacja, jaką znalazłem mówi o próbie 50000 osób).
George Gallup reaguje na wynik wyborów 1936
Problem oczywiście polegał na tym, że czytelnicy Literary Digest i posiadacze telefonów nie byli tą grupą wyborców, która była skłonna głosować na FDR. Gallup był znacznie lepszy w doborze losowej próby.

Gallup w USA potrzebował większej próby, ponieważ prezydenta wybierają elektorzy i musiał przewidzieć wyniki z każdego stanu osobno. W polskim systemie wyboru władz wielkość próby 1000-2000 osób jest absolutnie wystarczająca. Dwa razy większa próba kosztuje dwa razy więcej, a wcale nie oznacza dwa razy większej dokładności:
Gdyby to jedynie błąd losowania decydował o jakości sondażu, to łatwo można by go zmniejszyć, na przykład z 3 proc. do 1 proc., losując próbę około 9600 respondentów zamiast 1100.
Tak, aby zmniejszyć błąd statystyczny trzykrotnie próbę trzeba zwiększyć dziewięciokrotnie. A to i tak nic nie pomoże w sytuacji, gdy próba nie jest reprezentatywna.

Jeśli ktoś ma jeszcze cierpliwość, to może porównać tekst prof. Szredera z wróżeniem z fusów "ekspertów": politologów i socjologów.

Brak komentarzy:

Prześlij komentarz