piątek, 23 października 2015

W tygodniu przed wyborami (4)

Ostatni wpis przed wyborami.

Wyniki modelu nr 1 wyglądają tak:

A poparcie dla partii zmieniało się tak:

PiS to zsumowane wyniki "PiS", "Solidarnej Polski" i "Polski Razem", a Zjednoczona Lewica to suma poparcia SLD i Ruchu Palikota/Twojego Ruchu.

Obciążenie wyników poszczególnych sondażowni:

Nie mam wyników dla Kukiza, KORWiNa, "Nowoczesnej" ani "Razem", bo ten model nie działa bez punktu zaczepienia: rzeczywistych wyników.

Coś więcej będzie można powiedzieć dopiero po wyborach. Prognozowanie jest trudne, zwłaszcza prognozowanie przyszłości.

Na sam koniec średnia z wszystkich październikowych sondaży, ujednoliconych do podstawy zdecydowanych wyborców.

PiS40%
PO26%
ZL9%
Kukiz7%
Nowoczesna7%
PSL6%
KORWiN5%
Razem1%

W tygodniu przed wyborami (3)


Dziś opublikowano wyniki sześciu(!) sondaży. Ciekawe, czy jeszcze coś zostanie na jutro.
Tutaj można znaleźć narzędzie do porównywania wyników pochodzących z tej samej pracowni.

Sześć sondaży to sporo, więc uaktualniłem ostatni wpis o obciążeniu wyników oraz wyniki modelu.

To wynik modelu:

A to średnia z październikowych sondaży, ujednoliconych do podstawy zdecydowanych wyborców.

PiS40%
PO26%
ZL9%
Kukiz7%
Nowoczesna7%
PSL5%
KORWiN5%
Razem1%

Trendy (9)

Zgodnie z obietnicą przedstawiam zaktualizowane informacje o trendach sondażowych każdego z ugrupowań.

Zebrałem wyniki 601 sondaży od połowy lipca 2010 do 22. października 2015. Przedstawię je tutaj jako serię wykresów.

Dane są ujednolicone i sprowadzone do odsetka zdecydowanych wyborców. Są więc to liczby porównywalne z rzeczywistym wynikiem wyborów z października 2011.

Na każdym z wykresów chmura kolorowych punktów to wyniki pojedynczych sondaży z poszczególnych pracowni. Szara pozioma linia to wynik z ostatnich wyborów na Sejm, szara pionowa linia to data tych wyborów, a pozioma turkusowa linia to 5% próg wyborczy.

Czarna linia to pewnego rodzaju uśrednienie, które ma wygładzić dane i zobrazować trend. Ta linia nie może jednak służyć do prognoz, ponieważ do znalezienia jej poziomu w każdym punkcie brane są wartości z całego otoczenia danego punktu - również z przyszłości.

Najpierw ogólny obraz:
Zbliżenie na okres od maja 2015:


Wartość dla PiS to suma poparcia PiS, Polski Razem oraz Solidarnej Polski. Wartość dla ZL to suma poparcia SLD i Twojego Ruchu/Ruchu Palikota

czwartek, 22 października 2015

W tygodniu przed wyborami (2)

[Wpis uaktualniony danymi z 2015-10-22]
Do przygotowania poprzedniego wpisu musiałem obliczyć miesięczne średnie z wyników poszczególnych partii.

Warto się nimi podzielić:

To średnie z ujednoliconych rezultatów - sondaży z różnych firm badawczych ujednoliconych do wspólnego świata zdecydowanych wyborców.

Tak wygląda zbliżenie na okres od maja 2015:

A to wynik dla samego października 2015:

PiS40%
PO26%
ZL9%
Kukiz7%
Nowoczesna7%
PSL5%
KORWiN5%
Razem1%

Analiza obciążenia wyników partii i pracowni (4)

[Wpis uaktualniony danymi z 2015-10-22]
Dlaczego różne pracownie w krótkich odstępach czasu pokazują bardzo różne wyniki? W idealnym świecie ogromne różnice pomiędzy różnymi pracowniami powinny zdarzać się dość rzadko, tymczasem porównując CBOS do TNS czy IBRiS różnica jest systematyczna.

Częściową odpowiedzią jest bias. Z braku lepszego polskiego określenia będę posługiwał się słowem obciążenie. Chodzi tu o systematyczne obciążenie wyników danej partii prezentowanych przez daną pracownię.

Powodów takiego obciążenia może być wiele: niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.

Natomiast efekt obciążenia jest natomiast łatwo zauważalny - dane ugrupowanie w sondażach pochodzących z jednej pracowni ma lepsze (gorsze) notowania, niż w sondażach z innych pracowni.
Zbliżenie na okres od maja 2015:

O co chodzi w tej plątaninie linii? Niżej je rozplączemy.

Metoda

Teoria mówi, że jeśli próba jest losowa i perfekcyjnie wykonana, to rezultat otrzymany w badaniu jest w pobliżu rzeczywistego wyniku i jest nieobciążony. To oznacza, że jeśli przygotujemy kilka badań, to mniej-więcej połowa powinna ujawnić wynik wyższy od rzeczywistego, a pozostałe - niższy. Zatem zwykła średnia z wyników badań różnych pracowni wykonanych w podobnym czasie jest całkiem niezłym przybliżeniem realnego poparcia danej partii.

Teoretycznie wyniki każdej z partii szacowane przez każdą pracownię z osobna też powinny być nieobciążone i mniej-więcej w połowie rezultatów znajdować się nad średnią, a w połowie pod średnią.

Skorzystałem z mojej bazy wyników sondaży, sprowadziłem wszystkie rezultaty do wspólnej podstawy (odsetek zdecydowanych wyborców), a następnie dla każdego miesiąca policzyłem średni wynik. Jeśli w miesiącu pojawiało się kilka sondaży z tej samej pracowni (IBRiS, TNS), to najpierw uśredniałem te rezultaty tak, aby każda pracownia w jednakowy sposób wpływała na tę miesięczną średnią.

Wykres powyżej to zbiorczy rzut oka na reszty, jakie zostały po odjęciu z tych wyników miesięcznej średniej. W idealnej sytuacji każda z kolorowych linii powinna być tyle samo czasu pod średnią, co nad średnią.

Za chwilę spojrzymy szczegółowo na te wykresy z bliska. Najpierw podsumowanie tych samych danych w nieco innej formie. W idealnej sytuacji wszystkie pudełka na poniższych wykresach powinny przecinać linię 0%. Czarne poziome linie to średnie z danego panelu.

Skrzyżowanie partii z pracowniami:

oraz pracowni z partiami:

Poniżej znajdują wykresy dla poszczególnych ugrupowań. Przyglądając się im warto zwrócić uwagę przede wszystkim na to, czy linia odchylenia od średniej znajduje się mniej-więcej tyle samo czasu po obu stronach osi.

PO


PiS


ZL


PSL


KORWiN


Kukiz


Nowoczesna


Razem


sobota, 17 października 2015

W tygodniu przed wyborami (1)

Na tydzień przed wyborami liczba dostępnych sondaży znacząco wzrosła. Cztery razy uruchamiałem ostatnio szacowanie modelu, aby tuż po wygenerowaniu wyników dowiedzieć się, że są dostępne nowe informacje.

Wyniki modelu nr 1 wyglądają tak:
A poparcie dla partii zmieniało się tak:

PiS to zsumowane wyniki "PiS", "Solidarnej Polski" i "Polski Razem", a Zjednoczona Lewica to suma poparcia SLD i Ruchu Palikota/Twojego Ruchu.

Obciążenie wyników poszczególnych sondażowni:

Nie mam wyników dla Kukiza, KORWiNa, "Nowoczesnej" ani "Razem", bo ten model nie działa bez punktu zaczepienia: rzeczywistych wyników.

Spróbujemy sobie z tym poradzić uśredniając wyniki w kolejnym wpisie z serii "Trendy". 

piątek, 2 października 2015

Podsumowanie września

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu we wrześniu: 2015-09-29. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.
Szare linie to kanały, w których na 95% znajduje się rzeczywiste poparcie dla danej partii. Pionowa linia wyznacza dzień poprzednich wyborów parlamentarnych.

Wyniki odfiltrowane z szumu wyglądają tak:
Wskaźnik koncentracji sceny politycznej to liczba wzięta z ekonomii. Indeks przyjmuje wartości z zakresu [0,1], gdzie jeden oznacza monopol jednej partii, a zero to jednakowe poparcie każdej partii.

Oto wyniki na dzień ostatniego sondażu:

Liczby po prawej stronie to średnia wartość poparcia, liczby w nawiasach, to przedział, w którym na 95% znajduje się rzeczywiste poparcie danej partii.

Prognozowane wyniki na ostatni dzień miesiąca pokazywałyby te same wartości średnie, tylko z szerszymi przedziałami ufności, czyli z większą niepewnością.

Wykres poniżej obrazuje średni rozrzut pomiędzy wynikami danej sondażowni, a wynikami zagregowanego modelu. Można z niego np. odczytać, że CBOS średnio podaje zawyżony wynik dla PO i zaniżony dla PiS.
Ta sama informacja w bardziej konkretnej formie. Kolorowe pola oznaczają wartości na 95% różne od zera.

Zastrzeżenie co do powyżej tabelki:
Należy zwrócić uwagę, że rezultat w powyższej tabeli absolutnie nie może być używany jako uzasadnienie tezy, że któraś z pracowni robi sondaże z "wynikami na zamówienie". Tego rodzaju obciążenie można wyjaśnić bez uciekania się do nieetycznych motywów: np. niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.
Dlaczego w tych wynikach nie ma nic o "Partii Kukiza", "KORWiN" ani Nowoczesnej.pl?
Ten model dobrze radzi sobie tylko w sytuacji, gdy znany jest przynajmniej jeden punkt zaczepienia z przeszłości - faktyczny wynik wyborczy, pozbawiony niepewności. Te ugrupowania są nowe i model nie jest w stanie oszacować dla nich sensownie ograniczonej niepewności obciążeń pracowni.