sobota, 21 czerwca 2014

Analiza obciążenia wyników partii i pracowni

Pod ostatnią analizą wyników TNS pojawił się komentarz:

i jak to pogodzić z CBOSem? :/
bo CBOS trzy dni wcześniej pokazał coś zupełnie innego.

Częściową odpowiedzią jest bias. Z braku lepszego polskiego określenia będę posługiwał się słowem obciążenie. Chodzi tu o systematyczne obciążenie wyników danej partii prezentowanych przez daną pracownię.

Powodów takiego obciążenia może być wiele: niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.

Natomiast efekt obciążenia jest natomiast łatwo zauważalny - dane ugrupowanie w sondażach pochodzących z jednej pracowni ma lepsze (gorsze) notowania, niż w sondażach z innych pracowni.

O co chodzi w tej plątaninie linii? Niżej je rozplączemy.


Metoda

Teoria mówi, że jeśli próba jest losowa i perfekcyjnie wykonana, to rezultat otrzymany w badaniu jest w pobliżu rzeczywistego wyniku i jest nieobciążony. To oznacza, że jeśli przygotujemy kilka badań, to mniej-więcej połowa powinna ujawnić wynik wyższy od rzeczywistego, a pozostałe - niższy. Zatem zwykła średnia z wyników badań różnych pracowni wykonanych w podobnym czasie jest całkiem niezłym przybliżeniem realnego poparcia danej partii.

Co więcej, teoretycznie wyniki każdej z partii szacowane przez każdą pracownię z osobna też powinny być nieobciążone i mniej-więcej w połowie rezultatów znajdować się nad średnią, a w połowie pod średnią.

Skorzystałem z mojej bazy wyników sondaży, sprowadziłem wszystkie rezultaty do wspólnej podstawy (odsetek zdecydowanych wyborców), a następnie dla każdego miesiąca policzyłem średni wynik. Jeśli w miesiącu pojawiało się kilka sondaży z tej samej pracowni (Homo Homini, TNS), to najpierw uśredniałem te rezultaty tak, aby każda pracownia w jednakowy sposób wpływała na tę miesięczną średnią.

Wykres powyżej to zbiorczy rzut oka na reszty, jakie zostały po odjęciu z tych wyników miesięcznej średniej. W idealnej sytuacji każda z kolorowych linii powinna być tyle samo czasu pod średnią, co nad średnią.

Za chwilę spojrzymy szczegółowo na te wykresy z bliska. Najpierw podsumowanie tych samych danych w nieco innej formie. W idealnej sytuacji wszystkie pudełka na poniższych wykresach powinny przecinać linię 0%. Czarne poziome linie to średnie z danego panelu.

Skrzyżowanie partii z pracowniami:
oraz pracowni z partiami:
Muszę zwrócić uwagę, że tak naiwnie policzone dane potwierdzane są przez dane, które publikuję w wynikach modelu nr 1. Z tabeli na końcu wyniku modelu można pobrać konkretne liczby i informację o ich istotności.

PO

Bardzo dobrze widać, że wyniki CBOS tylko w pojedynczych przypadkach spadają poniżej miesięcznej średniej. Odwrotna sytuacja była z rezultatami z ewybory.eu - tam wynik nigdy nie osiągnął średniej. Ciekawie wygląda wykres TNS - do tego roku zwykle wynik był systematycznie zawyżony, ostatnio coś się zmieniło.

PiS

To chwilami wygląda jak lustrzane odbicie rezultatu dla PO. CBOS systematycznie podaje niższy rezultat niż pozostałe pracownie. Intrygujący jest też wystrzał wyniku TNS w najnowszych danych.

SLD

SLD to partia faworyzowana w sondażach Homo Homini.

Twój Ruch

Twój Ruch / Ruch Palikota był zdecydowanie przeszacowywany w sondażach ulicznych wykonywanych przez ewybory.eu. Rezultaty pozostałych pracowni, jak i sam rezultat TR mieszczą się obecnie w granicach błędu statystycznego.

PSL

Z PSL jest pewien problem. Tutaj widać, że CBOS podaje systematycznie lepszy rezultat PSL w porównaniu z innymi pracowniami. Jednak z mojego modelu wynika, że jest odwrotnie - to pozostałe pracownie nie są w stanie dotrzeć do wyborców PSL i niedoszacowują tę partię. Skłaniam się właśnie ku tej interpretacji.

KNP

JKM oraz TVN nie darzą się sympatią, a to jednak w sondażach MillwardBrown (SMG/KRC) dla TVN wyniki KNP są systematycznie lepsze od konkurencyjnych pracowni.

SP

Bez komentarza

PR

Bez komentarza

Inspiracją wpisu i takiej formy prezentacji była notatka Gregora Aischa o niemieckich sondażach przed wyborami do Bundestagu we wrześniu ubiegłego roku.
Gregor miał komfort używania danych z okresu 14 lat, więc mógł sobie pozwolić na liczenie mediany dla każdego kwartału.

Brak komentarzy:

Prześlij komentarz