sobota, 4 kwietnia 2015

Analiza obciążenia wyników partii i pracowni (3)

Dlaczego różne pracownie w krótkich odstępach czasu pokazują bardzo różne wyniki? W idealnym świecie ogromne różnice pomiędzy różnymi pracowniami powinny zdarzać się dość rzadko, tymczasem porównując CBOS do TNS czy Homo Homini różnica jest systematyczna.

Częściową odpowiedzią jest bias. Z braku lepszego polskiego określenia będę posługiwał się słowem obciążenie. Chodzi tu o systematyczne obciążenie wyników danej partii prezentowanych przez daną pracownię.

Powodów takiego obciążenia może być wiele: niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.

Natomiast efekt obciążenia jest natomiast łatwo zauważalny - dane ugrupowanie w sondażach pochodzących z jednej pracowni ma lepsze (gorsze) notowania, niż w sondażach z innych pracowni.
O co chodzi w tej plątaninie linii? Niżej je rozplączemy.
Metoda

Teoria mówi, że jeśli próba jest losowa i perfekcyjnie wykonana, to rezultat otrzymany w badaniu jest w pobliżu rzeczywistego wyniku i jest nieobciążony. To oznacza, że jeśli przygotujemy kilka badań, to mniej-więcej połowa powinna ujawnić wynik wyższy od rzeczywistego, a pozostałe - niższy. Zatem zwykła średnia z wyników badań różnych pracowni wykonanych w podobnym czasie jest całkiem niezłym przybliżeniem realnego poparcia danej partii.

Teoretycznie wyniki każdej z partii szacowane przez każdą pracownię z osobna też powinny być nieobciążone i mniej-więcej w połowie rezultatów znajdować się nad średnią, a w połowie pod średnią.

Skorzystałem z mojej bazy wyników sondaży, sprowadziłem wszystkie rezultaty do wspólnej podstawy (odsetek zdecydowanych wyborców), a następnie dla każdego miesiąca policzyłem średni wynik. Jeśli w miesiącu pojawiało się kilka sondaży z tej samej pracowni (Homo Homini, TNS), to najpierw uśredniałem te rezultaty tak, aby każda pracownia w jednakowy sposób wpływała na tę miesięczną średnią.

Wykres powyżej to zbiorczy rzut oka na reszty, jakie zostały po odjęciu z tych wyników miesięcznej średniej. W idealnej sytuacji każda z kolorowych linii powinna być tyle samo czasu pod średnią, co nad średnią.

Za chwilę spojrzymy szczegółowo na te wykresy z bliska. Najpierw podsumowanie tych samych danych w nieco innej formie. W idealnej sytuacji wszystkie pudełka na poniższych wykresach powinny przecinać linię 0%. Czarne poziome linie to średnie z danego panelu.

Skrzyżowanie partii z pracowniami:
oraz pracowni z partiami:
Muszę zwrócić uwagę, że tak naiwnie policzone dane potwierdzane są przez dane, które publikuję w wynikach modelu nr 1. Z tabeli na końcu wyniku modelu można pobrać konkretne liczby i informację o ich istotności. 

PO

Długa prosta w wynikach GFK to artefakt z okresu, gdy GFK nie publikowało wyników sondaży wyborczych.

Bardzo dobrze widać, że wyniki CBOS tylko w pojedynczych przypadkach spadają poniżej miesięcznej średniej. Ciekawie wygląda wykres TNS - do roku 2014 zwykle wynik był systematycznie zawyżony, a od początku 2014 pojawia się tam gdzie powinien być: blisko wartości średniej i po obu jej stronach.

PiS

To niemal lustrzane odbicie rezultatu PO. CBOS systematycznie podaje niższy rezultat niż pozostałe pracownie. Intrygujący jest też wystrzał wyniku TNS w połowie 2014, po którym nastąpiła korekta.

SLD

SLD to partia faworyzowana przez Homo Homini i niezbyt lubiana przez GFK (lub ich model) oraz CBOS.

Twój Ruch

Wyniki TR teraz są już zupełnie płaskie, a wynika to z faktu, że publikowane wyniki mówią o poparciu rzędu kilku procent przy czym podawane wartości są wyrażone w zaokrąglonych całych punktach procentowych.

PSL

CBOS oraz TNS podawały systematycznie lepszy rezultat PSL w porównaniu z innymi pracowniami.

KNP

Choć TVN z KNP się gryzły, to jednak  wyniki MillwardBrown (SMG/KRC) pokazywały coś odwrotnego - tam KNP miało systematycznie większe poparcie. Wydaje się, że korekta nastąpiła po stronie sondażowni.
Obecnie odchylenia zbiegły się do zera, podobnie jak poparcie dla KNP, bo pojawił się...

KORWiN

...ale za krótko istnieje aby móc to jakoś skomentować.

Gregor miał komfort używania danych z okresu 14 lat, więc mógł sobie pozwolić na liczenie mediany dla każdego kwartału.

Brak komentarzy:

Prześlij komentarz