piątek, 23 października 2015

W tygodniu przed wyborami (4)

Ostatni wpis przed wyborami.

Wyniki modelu nr 1 wyglądają tak:

A poparcie dla partii zmieniało się tak:

PiS to zsumowane wyniki "PiS", "Solidarnej Polski" i "Polski Razem", a Zjednoczona Lewica to suma poparcia SLD i Ruchu Palikota/Twojego Ruchu.

Obciążenie wyników poszczególnych sondażowni:

Nie mam wyników dla Kukiza, KORWiNa, "Nowoczesnej" ani "Razem", bo ten model nie działa bez punktu zaczepienia: rzeczywistych wyników.

Coś więcej będzie można powiedzieć dopiero po wyborach. Prognozowanie jest trudne, zwłaszcza prognozowanie przyszłości.

Na sam koniec średnia z wszystkich październikowych sondaży, ujednoliconych do podstawy zdecydowanych wyborców.

PiS40%
PO26%
ZL9%
Kukiz7%
Nowoczesna7%
PSL6%
KORWiN5%
Razem1%

W tygodniu przed wyborami (3)


Dziś opublikowano wyniki sześciu(!) sondaży. Ciekawe, czy jeszcze coś zostanie na jutro.
Tutaj można znaleźć narzędzie do porównywania wyników pochodzących z tej samej pracowni.

Sześć sondaży to sporo, więc uaktualniłem ostatni wpis o obciążeniu wyników oraz wyniki modelu.

To wynik modelu:

A to średnia z październikowych sondaży, ujednoliconych do podstawy zdecydowanych wyborców.

PiS40%
PO26%
ZL9%
Kukiz7%
Nowoczesna7%
PSL5%
KORWiN5%
Razem1%

Trendy (9)

Zgodnie z obietnicą przedstawiam zaktualizowane informacje o trendach sondażowych każdego z ugrupowań.

Zebrałem wyniki 601 sondaży od połowy lipca 2010 do 22. października 2015. Przedstawię je tutaj jako serię wykresów.

Dane są ujednolicone i sprowadzone do odsetka zdecydowanych wyborców. Są więc to liczby porównywalne z rzeczywistym wynikiem wyborów z października 2011.

Na każdym z wykresów chmura kolorowych punktów to wyniki pojedynczych sondaży z poszczególnych pracowni. Szara pozioma linia to wynik z ostatnich wyborów na Sejm, szara pionowa linia to data tych wyborów, a pozioma turkusowa linia to 5% próg wyborczy.

Czarna linia to pewnego rodzaju uśrednienie, które ma wygładzić dane i zobrazować trend. Ta linia nie może jednak służyć do prognoz, ponieważ do znalezienia jej poziomu w każdym punkcie brane są wartości z całego otoczenia danego punktu - również z przyszłości.

Najpierw ogólny obraz:
Zbliżenie na okres od maja 2015:


Wartość dla PiS to suma poparcia PiS, Polski Razem oraz Solidarnej Polski. Wartość dla ZL to suma poparcia SLD i Twojego Ruchu/Ruchu Palikota

czwartek, 22 października 2015

W tygodniu przed wyborami (2)

[Wpis uaktualniony danymi z 2015-10-22]
Do przygotowania poprzedniego wpisu musiałem obliczyć miesięczne średnie z wyników poszczególnych partii.

Warto się nimi podzielić:

To średnie z ujednoliconych rezultatów - sondaży z różnych firm badawczych ujednoliconych do wspólnego świata zdecydowanych wyborców.

Tak wygląda zbliżenie na okres od maja 2015:

A to wynik dla samego października 2015:

PiS40%
PO26%
ZL9%
Kukiz7%
Nowoczesna7%
PSL5%
KORWiN5%
Razem1%

Analiza obciążenia wyników partii i pracowni (4)

[Wpis uaktualniony danymi z 2015-10-22]
Dlaczego różne pracownie w krótkich odstępach czasu pokazują bardzo różne wyniki? W idealnym świecie ogromne różnice pomiędzy różnymi pracowniami powinny zdarzać się dość rzadko, tymczasem porównując CBOS do TNS czy IBRiS różnica jest systematyczna.

Częściową odpowiedzią jest bias. Z braku lepszego polskiego określenia będę posługiwał się słowem obciążenie. Chodzi tu o systematyczne obciążenie wyników danej partii prezentowanych przez daną pracownię.

Powodów takiego obciążenia może być wiele: niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.

Natomiast efekt obciążenia jest natomiast łatwo zauważalny - dane ugrupowanie w sondażach pochodzących z jednej pracowni ma lepsze (gorsze) notowania, niż w sondażach z innych pracowni.
Zbliżenie na okres od maja 2015:

O co chodzi w tej plątaninie linii? Niżej je rozplączemy.

Metoda

Teoria mówi, że jeśli próba jest losowa i perfekcyjnie wykonana, to rezultat otrzymany w badaniu jest w pobliżu rzeczywistego wyniku i jest nieobciążony. To oznacza, że jeśli przygotujemy kilka badań, to mniej-więcej połowa powinna ujawnić wynik wyższy od rzeczywistego, a pozostałe - niższy. Zatem zwykła średnia z wyników badań różnych pracowni wykonanych w podobnym czasie jest całkiem niezłym przybliżeniem realnego poparcia danej partii.

Teoretycznie wyniki każdej z partii szacowane przez każdą pracownię z osobna też powinny być nieobciążone i mniej-więcej w połowie rezultatów znajdować się nad średnią, a w połowie pod średnią.

Skorzystałem z mojej bazy wyników sondaży, sprowadziłem wszystkie rezultaty do wspólnej podstawy (odsetek zdecydowanych wyborców), a następnie dla każdego miesiąca policzyłem średni wynik. Jeśli w miesiącu pojawiało się kilka sondaży z tej samej pracowni (IBRiS, TNS), to najpierw uśredniałem te rezultaty tak, aby każda pracownia w jednakowy sposób wpływała na tę miesięczną średnią.

Wykres powyżej to zbiorczy rzut oka na reszty, jakie zostały po odjęciu z tych wyników miesięcznej średniej. W idealnej sytuacji każda z kolorowych linii powinna być tyle samo czasu pod średnią, co nad średnią.

Za chwilę spojrzymy szczegółowo na te wykresy z bliska. Najpierw podsumowanie tych samych danych w nieco innej formie. W idealnej sytuacji wszystkie pudełka na poniższych wykresach powinny przecinać linię 0%. Czarne poziome linie to średnie z danego panelu.

Skrzyżowanie partii z pracowniami:

oraz pracowni z partiami:

Poniżej znajdują wykresy dla poszczególnych ugrupowań. Przyglądając się im warto zwrócić uwagę przede wszystkim na to, czy linia odchylenia od średniej znajduje się mniej-więcej tyle samo czasu po obu stronach osi.

PO


PiS


ZL


PSL


KORWiN


Kukiz


Nowoczesna


Razem


sobota, 17 października 2015

W tygodniu przed wyborami (1)

Na tydzień przed wyborami liczba dostępnych sondaży znacząco wzrosła. Cztery razy uruchamiałem ostatnio szacowanie modelu, aby tuż po wygenerowaniu wyników dowiedzieć się, że są dostępne nowe informacje.

Wyniki modelu nr 1 wyglądają tak:
A poparcie dla partii zmieniało się tak:

PiS to zsumowane wyniki "PiS", "Solidarnej Polski" i "Polski Razem", a Zjednoczona Lewica to suma poparcia SLD i Ruchu Palikota/Twojego Ruchu.

Obciążenie wyników poszczególnych sondażowni:

Nie mam wyników dla Kukiza, KORWiNa, "Nowoczesnej" ani "Razem", bo ten model nie działa bez punktu zaczepienia: rzeczywistych wyników.

Spróbujemy sobie z tym poradzić uśredniając wyniki w kolejnym wpisie z serii "Trendy". 

piątek, 2 października 2015

Podsumowanie września

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu we wrześniu: 2015-09-29. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.
Szare linie to kanały, w których na 95% znajduje się rzeczywiste poparcie dla danej partii. Pionowa linia wyznacza dzień poprzednich wyborów parlamentarnych.

Wyniki odfiltrowane z szumu wyglądają tak:
Wskaźnik koncentracji sceny politycznej to liczba wzięta z ekonomii. Indeks przyjmuje wartości z zakresu [0,1], gdzie jeden oznacza monopol jednej partii, a zero to jednakowe poparcie każdej partii.

Oto wyniki na dzień ostatniego sondażu:

Liczby po prawej stronie to średnia wartość poparcia, liczby w nawiasach, to przedział, w którym na 95% znajduje się rzeczywiste poparcie danej partii.

Prognozowane wyniki na ostatni dzień miesiąca pokazywałyby te same wartości średnie, tylko z szerszymi przedziałami ufności, czyli z większą niepewnością.

Wykres poniżej obrazuje średni rozrzut pomiędzy wynikami danej sondażowni, a wynikami zagregowanego modelu. Można z niego np. odczytać, że CBOS średnio podaje zawyżony wynik dla PO i zaniżony dla PiS.
Ta sama informacja w bardziej konkretnej formie. Kolorowe pola oznaczają wartości na 95% różne od zera.

Zastrzeżenie co do powyżej tabelki:
Należy zwrócić uwagę, że rezultat w powyższej tabeli absolutnie nie może być używany jako uzasadnienie tezy, że któraś z pracowni robi sondaże z "wynikami na zamówienie". Tego rodzaju obciążenie można wyjaśnić bez uciekania się do nieetycznych motywów: np. niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.
Dlaczego w tych wynikach nie ma nic o "Partii Kukiza", "KORWiN" ani Nowoczesnej.pl?
Ten model dobrze radzi sobie tylko w sytuacji, gdy znany jest przynajmniej jeden punkt zaczepienia z przeszłości - faktyczny wynik wyborczy, pozbawiony niepewności. Te ugrupowania są nowe i model nie jest w stanie oszacować dla nich sensownie ograniczonej niepewności obciążeń pracowni. 

sobota, 5 września 2015

Podsumowanie sierpnia

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu w sierpniu: 2015-08-28. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.

Szare linie to kanały, w których na 95% znajduje się rzeczywiste poparcie dla danej partii. Pionowa linia wyznacza dzień poprzednich wyborów parlamentarnych.

Wyniki odfiltrowane z szumu wyglądają tak:


Wskaźnik koncentracji sceny politycznej to liczba wzięta z ekonomii. Indeks przyjmuje wartości z zakresu [0,1], gdzie jeden oznacza monopol jednej partii, a zero to jednakowe poparcie każdej partii.


Oto wyniki na dzień ostatniego sondażu:



Liczby po prawej stronie to średnia wartość poparcia, liczby w nawiasach, to przedział, w którym na 95% znajduje się rzeczywiste poparcie danej partii.

Prognozowane wyniki na ostatni dzień miesiąca pokazywałyby te same wartości średnie, tylko z szerszymi przedziałami ufności, czyli z większą niepewnością.

Wykres poniżej obrazuje średni rozrzut pomiędzy wynikami danej sondażowni, a wynikami zagregowanego modelu. Można z niego np. odczytać, że ewybory.eu średnio podaje zawyżony wynik dla TR i zaniżony dla PO.




Ta sama informacja w bardziej konkretnej formie. Kolorowe pola oznaczają wartości na 95% różne od zera.




Zastrzeżenie co do powyżej tabelki:
Należy zwrócić uwagę, że rezultat w powyższej tabeli absolutnie nie może być używany jako uzasadnienie tezy, że któraś z pracowni robi sondaże z "wynikami na zamówienie". Tego rodzaju obciążenie można wyjaśnić bez uciekania się do nieetycznych motywów: np. niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.
Dlaczego w tych wynikach nie ma nic o "Partii Kukiza" ani Nowoczesnej.pl?
Ten model dobrze radzi sobie tylko w sytuacji, gdy znany jest przynajmniej jeden punkt zaczepienia z przeszłości - faktyczny wynik wyborczy, pozbawiony niepewności. Oba te ugrupowania są nowe i model nie jest w stanie oszacować dla nich sensownie ograniczonej niepewności obciążeń pracowni. Tak, dotyczy to też ugrupowania KORWiN - gdy dodałem je do zostawienia nie było to aż tak widoczne, jak przy Kukizie.

poniedziałek, 3 sierpnia 2015

Repozytoria na github.com

W serwisie github.com na koncie niepewnesondaże udostępniłem właśnie

  • kod źródłowy pobierania danych w Pythonie
  • skrypty w R, które posłużyła do napisania wpisów o pierwszej i drugiej turze wyborów prezydenckich.
  • surowe dane w formacie CSV oraz połączone i nieco przetworzone w formie pliku Rda do bezpośredniego wczytania przez R

Adresy repozytoriów:
https://github.com/niepewnesondaze/wybory-prezydent-2015-tura1
https://github.com/niepewnesondaze/wybory-prezydent-2015-tura2

Jest tam też repozytorium i dane z wyborów samorządowych do sejmików wojewódzkich:
https://github.com/niepewnesondaze/wyborysejmiki2014

Podsumowanie lipca

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu w lipcu 2015-07-18. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.

sobota, 1 sierpnia 2015

Wybory prezydenckie - pierwsza i druga tura oraz co zrobili wyborcy Kukiza

Podałem już tutaj osobno analizy wyników pierwszej oraz drugiej tury wyborów prezydenckich na poziomie wszystkich 27586 lokali wyborczych.

Nie było trudne połączyć wyniki obu głosowań i zobaczyć co ciekawego da się znaleźć po skrzyżowaniu tych danych.

Na przykład spróbować dowiedzieć się, co w drugiej turze zrobili wyborcy Pawła Kukiza? Sondaż MillwardBrown sugerował, że 63% z nich pójdzie zagłosować na Komorowskiego.

Zobaczmy najpierw, jak rywale poradzili sobie w drugiej turze.
Obie chmury punktów są nad przekątną - oczywiście poparcie dla obu kandydatów w drugiej turze było większe niż w pierwszej. Jednak niebieska chmura jest wyżej niż pomarańczowa - Andrzej Duda zyskał więcej w drugiej turze.

Dla każdego lokalu wyborczego znam liczbę głosów z pierwszej i z drugiej tury. Znam liczbę uprawnionych i frekwencję.

Czy na tej podstawie mogę powiedzieć jak wyborcy Pawła Kukiza zagłosowali w drugiej turze?

W jednym lokalu oczywiście nie.

Ale można to oszacować na danych z wyższego poziomu - na poziomie województw i całego kraju.

Używam w tym celu następującej metody opracowanej przez prof. Ioannisa Andreadisa (Andreadis, I. and Chadjipadelis, T. (2009). A method for the estimation of voter transition rates. Journal of Elections, Public Opinion and Parties 19(2):203-218 http://doi.org/10.1080/17457280902799089)

Doszedłem do następujących wyników:

niedziela, 26 lipca 2015

Trendy (8)

Z miesięcznym opóźnieniem w stosunku do obietnicy z poprzedniej części przedstawiam kolejny post z wykresami trendów sondażowych każdego z ugrupowań.
Następna część na pewno w październiku, przed dniem wyborów.

Zebrałem wyniki 548 sondaży od połowy lipca 2010 do niemal końca lipca 2015. Przedstawię je tutaj jako serię wykresów.

Dane są ujednolicone i sprowadzone do odsetka zdecydowanych wyborców. Są więc to liczby porównywalne z rzeczywistym wynikiem wyborów z października 2011.

Na każdym z wykresów chmura kolorowych punktów to wyniki pojedynczych sondaży z poszczególnych pracowni. Szara pozioma linia to wynik z ostatnich wyborów na Sejm, szara pionowa linia to data tych wyborów, a pozioma turkusowa linia to 5% próg wyborczy.

Czarna linia to pewnego rodzaju uśrednienie, które ma wygładzić dane i zobrazować trend. Ta linia nie może jednak służyć do prognoz, ponieważ do znalezienia jej poziomu w każdym punkcie brane są wartości z całego otoczenia danego punktu - również z przyszłości.

Najpierw ogólny obraz:
Wartość dla PiS to suma poparcia PiS, Polski Razem oraz Solidarnej Polski.

Następnie zbliżenia na poszczególne partie.

wtorek, 7 lipca 2015

Czy druga tura wyborów prezydenckich mogła zostać sfałszowana?


Bo skoro nie pierwsza...

Krótka odpowiedź: raczej nie.

Długa odpowiedź poniżej. Obejrzymy niektóre wykresy w kontekście, jaki nadały wyniki pierwszej tury wyborów prezydenckich. Będziemy bazować również na rzeczywistych wynikach z 27586 komisji obwodowych ściągniętych ze strony PKW. Tak wygląda pojedynczy raport.

Zaczniemy od skrzyżowania wyników z frekwencją:

To bardzo ładny wykres. Mamy dość symetryczną chmurę po obu stronach średniej krajowej frekwencji wyborczej. Nie ma żadnych podejrzanych obserwacji w narożnikach przy ok 100% frekwencji.

Tak wygląda wynik z prawdopodobnie sfałszowanych wyborów w Rosji.


niedziela, 5 lipca 2015

Czy pierwsza tura wyborów prezydenckich mogła zostać sfałszowana?


Krótka odpowiedź: raczej nie.

Długa odpowiedź poniżej.

Tytuł to nawiązanie do wpisu dotyczącego wyborów samorządowych. Ten wpis będzie miał bardzo podobną strukturę. Przeanalizujemy szczegółowe wyniki pierwszej tury wyborów prezydenckich na poziomie pojedynczych obwodów.

Po wyborach parlamentarnych w 2011 w Rosji powstał raport, który pokazuje jak mogą wyglądać wyniki wyborów sfałszowanych na wielką skalę. Polecam otworzyć go sobie teraz i czytać (porównywać wykresy) równolegle z tym postem.

Tym razem nie zajmujemy się sondażem, tylko rzeczywistymi rezultatami wyborów. Zadałem sobie trochę trudu i ściągnąłem ze strony PKW po kolei raporty z wynikami wyborów z każdej z 27586 komisji obwodowych. Tak wygląda pojedynczy raport.

Zaczniemy od skrzyżowania wyników z frekwencją:

To bardzo ładny wykres. Mamy dość symetryczną chmurę po obu stronach średniej krajowej frekwencji wyborczej.

Tak wygląda wynik z prawdopodobnie sfałszowanych wyborów w Rosji.


wtorek, 2 czerwca 2015

Podsumowanie maja

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu w maju 2015-05-20. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.

piątek, 22 maja 2015

Wybory prezydenckie - ostatni sondaż i przepływy elektoratu

Tuż przed rozpoczęciem soboty pod znakiem idiotycznej "ciszy wyborczej" poznaliśmy wyniki ostatnich sondaży.

Można się z nich dowiedzieć tylko tego, że rezultat wyborów jest nieznany, a poparcie dla obu kandydatów wyrównane. Jak będzie naprawdę - dowiemy się po weekendzie :).

Razem z wynikami ostatniego sondażu dla TVN wykonanego przez MillwardBrown opublikowano ciekawe informacje o tym jak teraz zagłosują pytani wyborcy poszczególnych kandydatów z pierwszej tury. Niestety sposób prezentacji jest fatalny:
Zgodnie z badaniem na Andrzeja Dudę chciałoby oddać swój głos 94,3 proc. tych, którzy poparli go w pierwszej turze, 3,3 proc. tych, którzy głosowali wcześniej na Bronisława Komorowskiego, 62,9 proc. byłych wyborców Pawła Kukiza(...)
A zamiast takiej prozy wystarczyłaby po prostu tabelka:


Przeliczając te procenty na głosy z pierwszej tury dostaniemy następujący wynik:


Andrzej Duda ma największe szanse na wygraną pod warunkiem, że do drugiej tury wyborów pójdą ci sami wyborcy, którzy głosowali w pierwszej turze.

Przed pierwszą turą wyborów prezydenckich "Fakt" napisał o tajnym sondażu dla SLD:
Sensacyjny sondaż wewnętrzny przeprowadzony dla SLD, do którego dotarł portal niezależna.pl obu najważniejszym rywalom daje po 36 proc. poparcia!
To było bardzo trafne. Żaden z publicznych sondaży przed pierwszą turą nie pokazywał remisu. Niestety dalej jest wielkie potknięcie.
Pozostali kandydaci według sondażu SLD uzyskali: Paweł Kukiz – 8 proc.(...) 
Jeśli wierzyć w tajne sondaże przed drugą turą, to tym razem "Fakt" również o nich donosi:
Z najnowszego wewnętrznego sondażu PO wynika, że prezydent Bronisław Komorowski (63 l.) ma niewiele ponad punkt przewagi nad kandydatem PiS Andrzejem Dudą (43l.). Wynik: 46 do 44,9. W badaniu dla PiS prezydent ma 47,5 proc. poparcia, a kandydat PiS – 46,1.
(A jeśli za nazwiskiem pojawia się wiek, to wiadomo, że to  cytat z "Faktu").