Motywacja
Często powtarzaną opinią w odniesieniu do sondaży wyborczych jest stwierdzenie, że wyniki są niewiarygodne, bo dana pracownia zawsze faworyzuje tę czy inną partię.
Chciałem dowiedzieć się ile w tym jest prawdy. A jeśli faktycznie jest taki stały efekt związku pracownia-partia, to jaki jest jego rozmiar. Czy można odzyskać wartość rzeczywistego poparcia danej partii tak, aby skorygować wyniki sondażu prezentowane w mediach?
Zdarza się, że jedna z pracowni konsekwentnie prezentuje inne wyniki niż wszystkie pozostałe - np. CBOS, w którego sondażach PO wyprzedzała PiS podczas gdy inne pracownie pokazywały coś dokładnie odwrotnego.
Kto jest bliżej prawdy? Czy można zrobić coś z wynikami tak, aby skorygować wyniki prezentowane w mediach?
Częściowo potwierdziłem istnienie takiego związku prezentując na tym blogu comiesięczne porównania sondaży oraz zagregowane wyniki. Nie miałem jednak w ręku narzędzia do usunięcia wpływu pracowni i odzyskania ukrytych wartości poparcia partii.
Aż do teraz.
Cel
Model nr 1 ma służyć do zrozumienia wpływu pracowni na wynik sondażu wyborczego oraz do wyłuskania wartości rzeczywistych preferencji wyborczych z wyników sondażowych.
Wartościami parametrów z Modelu nr 1 absolutnie nie można uzasadniać stwierdzenia, że wyniki danej pracowni są celowo manipulowane. Jeśli wyniki z ewybory.eu niedoszacowują PSL (o czym wielokrotnie pisałem), to wcale nie musi wynikać ze złej woli. Jest to najprawdopodobniej efekt wykonywania sondażu jako badania ulicznego w dużym mieście, a nie w miasteczku/na wsi - wszędzie tam, gdzie łatwiej znaleźć elektorat PSL.
Model nr 1 nie ma funkcji prognostycznej. Stwierdza tylko tyle, że w przyszłości poparcie dla każdej z partii będzie takie, jak dziś ale z coraz większą niepewnością.
Założenia modelu
- na wynik danej partii w sondażu danej pracowni składają się dwie liczby:
- rzeczywiste poparcie dla tej partii
- obciążenie pracowni, czyli systematyczne i nielosowe niedoszacowanie lub przeszacowanie wyniku tej partii przez tę pracownię
- rzeczywiste preferencje wyborcze bez efektu pracowni ujawniają się w dniu wyborów
- każdego dnia rzeczywiste preferencje wyborcze nieco zmieniają się
- wielkość tej zmiany zależy od partii - niektóre partie mają stabilny elektorat i zmiana jest niewielka albo elektorat nie jest bardzo lojalny i zmiany są duże
- obciążenie wyniku danej partii w sondażu danej pracowni jest stałe (np. "CBOS zawsze przeszacowuje PO", "ewybory.eu zawsze niedoszacowują PSL")
Uzasadnienie założeń
- każda z pracowni wykonujących sondaże korzysta z losowej próby, ale jednocześnie jest ograniczona swoją bazą adresową respondentów
- baza adresowa służy jako źródło do przeprowadzania wielu rodzajów badań (np. marketingowych) i niekoniecznie jest reprezentatywna dla grupy osób chodzących na wybory
- każda z pracowni ma własne unikalne usterki w wykonywaniu sondaży (ludzie z branży nazywają to "know-how"), unikalne problemy z dotarciem do wyborców konkretnych partii (np. sondaż uliczny ewybory.eu nie jest w stanie dotrzeć do wyborców PSL) i unikalne problemy z odmową odpowiedzi (np. wyborcy partii X nie będą rozmawiać z ankieterem pracowni Y, bo sondaż jest na zlecenie telewizji Z)
- zmiana preferencji wyborczych z dnia na dzień jest niewielka; podobnie jak to jest z przewidywaniem pogody: najbardziej trafną prognozą na jutro jest "tak jak dziś, ale z niewielką zmianą"
Prawie formalny opis Modelu nr 1
Do formalnego opisu musiałbym napisać porządny artykuł, co powinienem zrobić, ale na co w tej chwili brak mi czasu. Pozostawiam więc poniższy opis. Jest bardziej obszerny niż lakoniczna notatka na marginesie.
- obliczenia powtarzane są osobno dla każdej z partii
- za każdym razem modelujemy zdarzenie "głosuję na partię X" vs. "nie głosuję na partię X" - tzn. w tym modelu nie ma interakcji pomiędzy wynikami partii
- wynik y uzyskany w sondażu pracowni p dnia d traktujemy jako pochodzący z rozkładu normalnego o średniej μ i wariancji σ, ocenzurowanego do przedziału 0,01-0,99
- wartość σ zależy od wielkości próby w danym sondażu - tzn. uwzględniamy błąd pomiaru
- wartość μ jest równa sumie rzeczywistego poparcia dla partii danego dnia (α) oraz stałego efektu pracowni (β)
- wartość α dnia d+1 pochodzi z rozkładu normalnego o średniej α z dnia d przy wariancji τ - tzn. poparcie dla partii jutro będzie mniej-więcej takie samo, jak dziś
- wartość τ jest stała dla danej partii - tzn. poparcie dla partii o stabilnym elektoracie nie będzie się bardzo zmieniać, a poparcie dla partii o dynamicznym elektoracie może się wahać w szerokich widełkach
- wartość β dla danej pracowni i danej partii jest stała
- w każdym dniu, w którym był wykonany jakiś sondaż znamy tylko wynik danej partii równy μ=α+β z niepewnością mierzoną przez σ
- w dniach, w których nie było sondażu znamy tylko oszacowanie α z rosnącą niepewnością mierzoną przez τ
- a priori zakładamy, że wartość β pochodzi z rozkładu normalnego o średniej 0 i dużej wariancji - tzn., że nie ma efektu pracowni, ale mamy co do tego duże wątpliwości
- a priori zakładamy, że wartość α pierwszego dnia, dla którego mamy dane pochodzi z rozkładu jednorodnego na przedziale [0, 0,5] - tzn. że rzeczywiste poparcie danej partii jest nam nieznane
- a priori przyjmujemy w dniu wyborów wartości α dokładnie znane i są to wyniki wyborów
Tak przygotowany hierarchiczny model bayesowski został uruchomiony za pomocą biblioteki rJAGS w pakiecie R na zbiorze danych 338 sondaży z okresu 2010-07-15 do 2013-11-14. Poszczególne parametry modelu (α, β, μ, σ, τ) zostały oszacowane dla każdego dnia w tym okresie metodą MCMC po 100000 iteracji dla każdej partii.
Źródła
- R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.
- Martyn Plummer (2013). rjags: Bayesian graphical models using MCMC. R package version 3-10. http://CRAN.R-project.org/package=rjags
- Jackman Simon, "House effects by popular demand", http://www.huffingtonpost.com/simon-jackman/house-effects-by-back-by-_b_2007907.html
- JACKMAN, Simon. Pooling the polls over an election campaign. Australian Journal of Political Science, 2005, 40.4: 499-517. http://jackman.stanford.edu/oz/
Brak komentarzy:
Prześlij komentarz