poniedziałek, 18 listopada 2013

Model nr 1 - opis i założenia

W tym wpisie opisuję strukturę i założenia Modelu nr 1. Wyniki, ich interpretacja i wykresy będą w kolejnej notatce. Treść tego wpisu może się jeszcze zmienić.

Motywacja

Często powtarzaną opinią w odniesieniu do sondaży wyborczych jest stwierdzenie, że wyniki są niewiarygodne, bo dana pracownia zawsze faworyzuje tę czy inną partię. 

Chciałem dowiedzieć się ile w tym jest prawdy. A jeśli faktycznie jest taki stały efekt związku pracownia-partia, to jaki jest jego rozmiar. Czy można odzyskać wartość rzeczywistego poparcia danej partii tak, aby skorygować wyniki sondażu prezentowane w mediach?

Zdarza się, że jedna z pracowni konsekwentnie prezentuje inne wyniki niż wszystkie pozostałe - np. CBOS, w którego sondażach PO wyprzedzała PiS podczas gdy inne pracownie pokazywały coś dokładnie odwrotnego. 

Kto jest bliżej prawdy? Czy można zrobić coś z wynikami tak, aby skorygować wyniki prezentowane w mediach?

Częściowo potwierdziłem istnienie takiego związku prezentując na tym blogu comiesięczne porównania sondaży oraz zagregowane wyniki. Nie miałem jednak w ręku narzędzia do usunięcia wpływu pracowni i odzyskania ukrytych wartości poparcia partii.

Aż do teraz.


Cel

Model nr 1 ma służyć do zrozumienia wpływu pracowni na wynik sondażu wyborczego oraz do wyłuskania wartości rzeczywistych preferencji wyborczych z wyników sondażowych.

Wartościami parametrów z Modelu nr 1 absolutnie nie można uzasadniać stwierdzenia, że wyniki danej pracowni są celowo manipulowane. Jeśli wyniki z ewybory.eu niedoszacowują PSL (o czym wielokrotnie pisałem), to wcale nie musi wynikać ze złej woli. Jest to najprawdopodobniej efekt wykonywania sondażu jako badania ulicznego w dużym mieście, a nie w miasteczku/na wsi - wszędzie tam, gdzie łatwiej znaleźć elektorat PSL.

Model nr 1 nie ma funkcji prognostycznej. Stwierdza tylko tyle, że w przyszłości poparcie dla każdej z partii będzie takie, jak dziś ale z coraz większą niepewnością.

Założenia modelu

  • na wynik danej partii w sondażu danej pracowni składają się dwie liczby:
    • rzeczywiste poparcie dla tej partii
    • obciążenie pracowni, czyli systematyczne i nielosowe niedoszacowanie lub przeszacowanie wyniku tej partii przez tę pracownię
  • rzeczywiste preferencje wyborcze bez efektu pracowni ujawniają się w dniu wyborów
  • każdego dnia rzeczywiste preferencje wyborcze nieco zmieniają się
  • wielkość tej zmiany zależy od partii - niektóre partie mają stabilny elektorat i zmiana jest niewielka albo elektorat nie jest bardzo lojalny i zmiany są duże
  • obciążenie wyniku danej partii w sondażu danej pracowni jest stałe (np. "CBOS zawsze przeszacowuje PO", "ewybory.eu zawsze niedoszacowują PSL")

Uzasadnienie założeń

  • każda z pracowni wykonujących sondaże korzysta z losowej próby, ale jednocześnie jest ograniczona swoją bazą adresową respondentów
  • baza adresowa służy jako źródło do przeprowadzania wielu rodzajów badań (np. marketingowych) i niekoniecznie jest reprezentatywna dla grupy osób chodzących na wybory
  • każda z pracowni ma własne unikalne usterki w wykonywaniu sondaży (ludzie z branży nazywają to "know-how"), unikalne problemy z dotarciem do wyborców konkretnych partii (np. sondaż uliczny ewybory.eu nie jest w stanie dotrzeć do wyborców PSL) i unikalne problemy z odmową odpowiedzi (np. wyborcy partii X nie będą rozmawiać z ankieterem pracowni Y, bo sondaż jest na zlecenie telewizji Z)
  • zmiana preferencji wyborczych z dnia na dzień jest niewielka; podobnie jak to jest z przewidywaniem pogody: najbardziej trafną prognozą na jutro jest "tak jak dziś, ale z niewielką zmianą"

Prawie formalny opis Modelu nr 1

Do formalnego opisu musiałbym napisać porządny artykuł, co powinienem zrobić, ale na co w tej chwili brak mi czasu. Pozostawiam więc poniższy opis. Jest bardziej obszerny niż lakoniczna notatka na marginesie.
  • obliczenia powtarzane są osobno dla każdej z partii
  • za każdym razem modelujemy zdarzenie "głosuję na partię X" vs. "nie głosuję na partię X" - tzn. w tym modelu nie ma interakcji pomiędzy wynikami partii
  • wynik y uzyskany w sondażu pracowni p dnia d traktujemy jako pochodzący z rozkładu normalnego o średniej μ i wariancji σ, ocenzurowanego do przedziału 0,01-0,99
  • wartość σ zależy od wielkości próby w danym sondażu - tzn. uwzględniamy błąd pomiaru
  • wartość μ jest równa sumie rzeczywistego poparcia dla partii danego dnia (α) oraz stałego efektu pracowni (β)
  • wartość α dnia d+1 pochodzi z rozkładu normalnego o średniej α z dnia d przy wariancji τ - tzn. poparcie dla partii jutro będzie mniej-więcej takie samo, jak dziś
  • wartość τ jest stała dla danej partii - tzn. poparcie dla partii o stabilnym elektoracie nie będzie się bardzo zmieniać, a poparcie dla partii o dynamicznym elektoracie może się wahać w szerokich widełkach
  • wartość β dla danej pracowni i danej partii jest stała
  • w każdym dniu, w którym był wykonany jakiś sondaż znamy tylko wynik danej partii równy μ=α+β z niepewnością mierzoną przez σ
  • w dniach, w których nie było sondażu znamy tylko oszacowanie α z rosnącą niepewnością mierzoną przez τ
  • a priori zakładamy, że wartość β pochodzi z rozkładu normalnego o średniej 0 i dużej wariancji - tzn., że nie ma efektu pracowni, ale mamy co do tego duże wątpliwości
  • a priori zakładamy, że wartość α pierwszego dnia, dla którego mamy dane pochodzi z rozkładu jednorodnego na przedziale [0, 0,5] - tzn. że rzeczywiste poparcie danej partii jest nam nieznane
  • a priori przyjmujemy w dniu wyborów wartości α dokładnie znane i są to wyniki wyborów
Tak przygotowany hierarchiczny model bayesowski został uruchomiony za pomocą biblioteki rJAGS w pakiecie R na zbiorze danych 338 sondaży z okresu 2010-07-15 do 2013-11-14. Poszczególne parametry modelu (α, β, μ, σ, τ) zostały oszacowane dla każdego dnia w tym okresie metodą MCMC po 100000 iteracji dla każdej partii.

Źródła


  1. R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.
  2. Martyn Plummer (2013). rjags: Bayesian graphical models using MCMC. R package version 3-10. http://CRAN.R-project.org/package=rjags
  3. Jackman Simon, "House effects by popular demand", http://www.huffingtonpost.com/simon-jackman/house-effects-by-back-by-_b_2007907.html
  4. JACKMAN, Simon. Pooling the polls over an election campaign. Australian Journal of Political Science, 2005, 40.4: 499-517. http://jackman.stanford.edu/oz/

Brak komentarzy:

Prześlij komentarz