wtorek, 3 września 2013

Porównanie sondaży z sierpnia

Metoda porównania jest taka sama od czerwca:
Wyniki poszczególnych sondaży połączone w zagregowane badanie przedstawiłem w poprzednim wpisie.
Zajmiemy się porównaniem sześciu sondaży z czterech pracowni. Tak samo, jak poprzednio dane zostały sprowadzone do wspólnej bazy: poparcia dla jednego z pięciu ugrupowań - PiS, PO, SLD, PSL albo RP.
Podwójne sondaże: TNS oraz TNS dla TVP i Homo Homini dla Rzeczpospolitej oraz Homo Homini dla Wirtualnej Polski traktuję jako oddzielne badania.
Moja metodologia bierze pod uwagę wpływ frekwencji i wielkości próby.
Czarne poziome linie to średnie wartości w każdym panelu. Szara linia na dole to poziom 5% progu wyborczego.
Oto te same wyniki po uwzględnieniu błędu, po zastosowaniu prostego modelu Bayesowskiego.
 Komentarz do tych wyników mam właściwie taki sam, jak w czerwcu i lipcu:

  • wyniki PO w CBOS i TNS są wyraźnie ponad średnią
  • ciekawy jest rozstęp wyniku PiS pomiędzy sondażami TNS i TNS dla TVP Info
  • ewybory.eu niezmiennie trafia na zwiększoną liczbę zwolenników Ruchu Palikota, a gubi gdzieś wyborców PSL
W komentarzach do poprzedniego wpisu była prośba o dokładniejszą informację o modelu.

Najpierw używając informacji o wielkości próby, frekwencji i poparciu poszczególnych partii odtwarzam faktyczne wyniki badania - np. z próby 1000 osób otrzymuję 500 pojedynczych obserwacji o braku udziału w głosowaniu, 100 obserwacji o głosujących na PO, itd.

Mamy 6 sondażowni i 5 partii, razem 30 parametrów pij - wybrania partii i przez ankietowanego w sondażu  j.

Na każdy z tych parametrów nakładany jest z osobna a priori rozkład Beta(1,1), czyli taki w którym każda wartość parametru pij pomiędzy 0 a 1 jest jednakowo prawdopodobna.
Parametry tych rozkładów są aktualizowane według reguły Bayesa zgodnie z zebranymi obserwacjami. W wyniku dostaję a posteriori 30 rozkładów:
pij ~ Beta(aij,bij)

Słupki z wąsami na wykresach to próba losowa z tych rozkładów do zobrazowania ich gęstości.

Tę procedurę dla jednej pracowni można obejrzeć w drugim wpisie o sezonie ogórkowym. Animacja na dole obrazuje pojedyncze aktualizacje parametrów p dla wyników pochodzących z jednej z sześciu pracowni.

Tak, jak napisałem wyżej: ten model jest bardzo prosty. Jest też niekompletny. Nie ma w nim żadnej interakcji pomiędzy różnymi sondażami wykonanymi w podobnym czasie. Nie ma w nim uwzględnionego żadnego trendu w czasie.

Na wszystko przyjdzie czas, to dopiero początek.

Brak komentarzy:

Prześlij komentarz