sobota, 4 kwietnia 2015

Analiza obciążenia wyników partii i pracowni (3)

Dlaczego różne pracownie w krótkich odstępach czasu pokazują bardzo różne wyniki? W idealnym świecie ogromne różnice pomiędzy różnymi pracowniami powinny zdarzać się dość rzadko, tymczasem porównując CBOS do TNS czy Homo Homini różnica jest systematyczna.

Częściową odpowiedzią jest bias. Z braku lepszego polskiego określenia będę posługiwał się słowem obciążenie. Chodzi tu o systematyczne obciążenie wyników danej partii prezentowanych przez daną pracownię.

Powodów takiego obciążenia może być wiele: niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.

Natomiast efekt obciążenia jest natomiast łatwo zauważalny - dane ugrupowanie w sondażach pochodzących z jednej pracowni ma lepsze (gorsze) notowania, niż w sondażach z innych pracowni.
O co chodzi w tej plątaninie linii? Niżej je rozplączemy.


czwartek, 2 kwietnia 2015

Trendy (7)

Zgodnie z obietnicą przedstawiam kolejny post z wykresami trendów sondażowych dla każdej z partii. Następny taki post pojawi się za trzy miesiące - na koniec czerwca. Wkrótce umieszczę też analizę obciążenia wyników poszczególnych partii podawanych przez  pracownie.

Zebrałem wyniki 505 sondaży od połowy lipca 2010 do końca marca 2015. Przedstawię je tutaj jako serię wykresów.

Dane są ujednolicone i sprowadzone do odsetka zdecydowanych wyborców. Są więc to liczby porównywalne z rzeczywistym wynikiem wyborów z października 2011.

Na każdym z wykresów chmura kolorowych punktów to wyniki pojedynczych sondaży z poszczególnych pracowni. Szara pozioma linia to wynik z ostatnich wyborów na Sejm, szara pionowa linia to data tych wyborów, a pozioma turkusowa linia to 5% próg wyborczy.

Czarna linia to pewnego rodzaju uśrednienie, które ma wygładzić dane i zobrazować trend. Ta linia nie może jednak służyć do prognoz, ponieważ do znalezienia jej poziomu w każdym punkcie brane są wartości z całego otoczenia danego punktu - również z przyszłości.

Najpierw ogólny obraz:
Wartość dla PiS to suma poparcia PiS, Polski Razem oraz Solidarnej Polski.

Następnie zbliżenia na poszczególne partie.

poniedziałek, 30 marca 2015

Podsumowanie marca

Oto wyniki modelu zatrzymane w czasie na dzień ostatniego sondażu w marcu 2015-03-18. Do modelu wchodzą wyłącznie sondaże dotyczące wyborów na Sejm.

Techniczny opis modelu można znaleźć tutaj. Przedstawiane niżej liczby dotyczą poparcia w grupie osób zdecydowanych co do pójścia na wybory i jednocześnie zdecydowanych na ugrupowanie, na które chcą głosować. Model ma za zadanie usunąć z wyników poszczególnych sondaży błąd wynikający z systematycznego obciążenia wyników danej pracowni dla danej partii.

Zacznijmy od wykresu z wynikami historycznymi - od momentu nieco przed poprzednimi wyborami aż do dnia ostatniego znanego sondażu.

Szare linie to kanały, w których na 95% znajduje się rzeczywiste poparcie dla danej partii. Pionowa linia wyznacza dzień poprzednich wyborów parlamentarnych.

Wyniki odfiltrowane z szumu wyglądają tak:
Wskaźnik koncentracji sceny politycznej to liczba wzięta z ekonomii. Indeks przyjmuje wartości z zakresu [0,1], gdzie jeden oznacza monopol jednej partii, a zero to jednakowe poparcie każdej partii.


Oto wyniki na dzień ostatniego sondażu:

Liczby po prawej stronie to średnia wartość poparcia, liczby w nawiasach, to przedział, w którym na 95% znajduje się rzeczywiste poparcie danej partii.

Prognozowane wyniki na ostatni dzień miesiąca pokazywałyby te same wartości średnie, tylko z szerszymi przedziałami ufności, czyli z większą niepewnością.

Wykres poniżej obrazuje średni rozrzut pomiędzy wynikami danej sondażowni, a wynikami zagregowanego modelu. Można z niego np. odczytać, że ewybory.eu średnio podaje zawyżony wynik dla TR i zaniżony dla PO.


Ta sama informacja w bardziej konkretnej formie. Kolorowe pola oznaczają wartości na 95% różne od zera.


Inaczej: wyniki podawane przez ewybory.eu podają poparcie dla TR średnio większe o 4 punkty procentowe od poparcia z modelu.

Patrząc na wiersze tabeli widzimy, że całkiem wiarygodnie wyglądają wyniki podawane dla większości partii przez TNS oraz MillwardBrown (SMG/KRC).

Spoglądając na kolumny widać, że największa zgodność (najwięcej szarych pól - wartości nieodróżnialnych od zera) pomiędzy pracowniami panuje obecnie przy podawaniu wyników PiS.