Niepewne sondaże: Porównanie sondaży z sierpnia

wtorek, 3 września 2013

Porównanie sondaży z sierpnia

Metoda porównania jest taka sama od czerwca:

Wyniki poszczególnych sondaży połączone w zagregowane badanie przedstawiłem w poprzednim wpisie.

Zajmiemy się porównaniem sześciu sondaży z czterech pracowni. Tak samo, jak poprzednio dane zostały sprowadzone do wspólnej bazy: poparcia dla jednego z pięciu ugrupowań - PiS, PO, SLD, PSL albo RP.

Podwójne sondaże: TNS oraz TNS dla TVP i Homo Homini dla Rzeczpospolitej oraz Homo Homini dla Wirtualnej Polski traktuję jako oddzielne badania.

Moja metodologia bierze pod uwagę wpływ frekwencji i wielkości próby.

Czarne poziome linie to średnie wartości w każdym panelu. Szara linia na dole to poziom 5% progu wyborczego.

Oto te same wyniki po uwzględnieniu błędu, po zastosowaniu prostego modelu Bayesowskiego.

Komentarz do tych wyników mam właściwie taki sam, jak w czerwcu i lipcu:

wyniki PO w CBOS i TNS są wyraźnie ponad średnią
ciekawy jest rozstęp wyniku PiS pomiędzy sondażami TNS i TNS dla TVP Info
ewybory.eu niezmiennie trafia na zwiększoną liczbę zwolenników Ruchu Palikota, a gubi gdzieś wyborców PSL

W komentarzach do poprzedniego wpisu była prośba o dokładniejszą informację o modelu.

Najpierw używając informacji o wielkości próby, frekwencji i poparciu poszczególnych partii odtwarzam faktyczne wyniki badania - np. z próby 1000 osób otrzymuję 500 pojedynczych obserwacji o braku udziału w głosowaniu, 100 obserwacji o głosujących na PO, itd.

Mamy 6 sondażowni i 5 partii, razem 30 parametrów p_ij - wybrania partii i przez ankietowanego w sondażu j.

Na każdy z tych parametrów nakładany jest z osobna a priori rozkład Beta(1,1), czyli taki w którym każda wartość parametru p_ijpomiędzy 0 a 1 jest jednakowo prawdopodobna.
Parametry tych rozkładów są aktualizowane według reguły Bayesa zgodnie z zebranymi obserwacjami. W wyniku dostaję a posteriori 30 rozkładów:

p_ij ~ Beta(a_ij,b_ij)

Słupki z wąsami na wykresach to próba losowa z tych rozkładów do zobrazowania ich gęstości.

Tę procedurę dla jednej pracowni można obejrzeć w drugim wpisie o sezonie ogórkowym. Animacja na dole obrazuje pojedyncze aktualizacje parametrów p dla wyników pochodzących z jednej z sześciu pracowni.

Tak, jak napisałem wyżej: ten model jest bardzo prosty. Jest też niekompletny. Nie ma w nim żadnej interakcji pomiędzy różnymi sondażami wykonanymi w podobnym czasie. Nie ma w nim uwzględnionego żadnego trendu w czasie.

Na wszystko przyjdzie czas, to dopiero początek.

Niepewne sondaże

Strony

wtorek, 3 września 2013

Porównanie sondaży z sierpnia

Brak komentarzy:

Prześlij komentarz