sobota, 5 września 2015

Podsumowanie sierpnia

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu w sierpniu: 2015-08-28. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.

Szare linie to kanały, w których na 95% znajduje się rzeczywiste poparcie dla danej partii. Pionowa linia wyznacza dzień poprzednich wyborów parlamentarnych.

Wyniki odfiltrowane z szumu wyglądają tak:


Wskaźnik koncentracji sceny politycznej to liczba wzięta z ekonomii. Indeks przyjmuje wartości z zakresu [0,1], gdzie jeden oznacza monopol jednej partii, a zero to jednakowe poparcie każdej partii.


Oto wyniki na dzień ostatniego sondażu:



Liczby po prawej stronie to średnia wartość poparcia, liczby w nawiasach, to przedział, w którym na 95% znajduje się rzeczywiste poparcie danej partii.

Prognozowane wyniki na ostatni dzień miesiąca pokazywałyby te same wartości średnie, tylko z szerszymi przedziałami ufności, czyli z większą niepewnością.

Wykres poniżej obrazuje średni rozrzut pomiędzy wynikami danej sondażowni, a wynikami zagregowanego modelu. Można z niego np. odczytać, że ewybory.eu średnio podaje zawyżony wynik dla TR i zaniżony dla PO.




Ta sama informacja w bardziej konkretnej formie. Kolorowe pola oznaczają wartości na 95% różne od zera.




Zastrzeżenie co do powyżej tabelki:
Należy zwrócić uwagę, że rezultat w powyższej tabeli absolutnie nie może być używany jako uzasadnienie tezy, że któraś z pracowni robi sondaże z "wynikami na zamówienie". Tego rodzaju obciążenie można wyjaśnić bez uciekania się do nieetycznych motywów: np. niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.
Dlaczego w tych wynikach nie ma nic o "Partii Kukiza" ani Nowoczesnej.pl?
Ten model dobrze radzi sobie tylko w sytuacji, gdy znany jest przynajmniej jeden punkt zaczepienia z przeszłości - faktyczny wynik wyborczy, pozbawiony niepewności. Oba te ugrupowania są nowe i model nie jest w stanie oszacować dla nich sensownie ograniczonej niepewności obciążeń pracowni. Tak, dotyczy to też ugrupowania KORWiN - gdy dodałem je do zostawienia nie było to aż tak widoczne, jak przy Kukizie.

poniedziałek, 3 sierpnia 2015

Repozytoria na github.com

W serwisie github.com na koncie niepewnesondaże udostępniłem właśnie

  • kod źródłowy pobierania danych w Pythonie
  • skrypty w R, które posłużyła do napisania wpisów o pierwszej i drugiej turze wyborów prezydenckich.
  • surowe dane w formacie CSV oraz połączone i nieco przetworzone w formie pliku Rda do bezpośredniego wczytania przez R

Adresy repozytoriów:
https://github.com/niepewnesondaze/wybory-prezydent-2015-tura1
https://github.com/niepewnesondaze/wybory-prezydent-2015-tura2

Jest tam też repozytorium i dane z wyborów samorządowych do sejmików wojewódzkich:
https://github.com/niepewnesondaze/wyborysejmiki2014

Podsumowanie lipca

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu w lipcu 2015-07-18. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.