Częściową odpowiedzią jest bias. Z braku lepszego polskiego określenia będę posługiwał się słowem obciążenie. Chodzi tu o systematyczne obciążenie wyników danej partii prezentowanych przez daną pracownię.
Powodów takiego obciążenia może być wiele: niereprezentatywny dobór próby do badania, dostępność bazy adresowej, sposób zadawania pytań, metoda wykonywania sondażu, problem z dotarciem do ankietowanych, odmowy udzielenia wywiadu, itd.
Natomiast efekt obciążenia jest natomiast łatwo zauważalny - dane ugrupowanie w sondażach pochodzących z jednej pracowni ma lepsze (gorsze) notowania, niż w sondażach z innych pracowni.
O co chodzi w tej plątaninie linii? Niżej je rozplączemy.
Metoda
Teoria mówi, że jeśli próba jest losowa i perfekcyjnie wykonana, to rezultat otrzymany w badaniu jest w pobliżu rzeczywistego wyniku i jest nieobciążony. To oznacza, że jeśli przygotujemy kilka badań, to mniej-więcej połowa powinna ujawnić wynik wyższy od rzeczywistego, a pozostałe - niższy. Zatem zwykła średnia z wyników badań różnych pracowni wykonanych w podobnym czasie jest całkiem niezłym przybliżeniem realnego poparcia danej partii.
Teoretycznie wyniki każdej z partii szacowane przez każdą pracownię z osobna też powinny być nieobciążone i mniej-więcej w połowie rezultatów znajdować się nad średnią, a w połowie pod średnią.
Skorzystałem z mojej bazy wyników sondaży, sprowadziłem wszystkie rezultaty do wspólnej podstawy (odsetek zdecydowanych wyborców), a następnie dla każdego miesiąca policzyłem średni wynik. Jeśli w miesiącu pojawiało się kilka sondaży z tej samej pracowni (Homo Homini, TNS), to najpierw uśredniałem te rezultaty tak, aby każda pracownia w jednakowy sposób wpływała na tę miesięczną średnią.
Wykres powyżej to zbiorczy rzut oka na reszty, jakie zostały po odjęciu z tych wyników miesięcznej średniej. W idealnej sytuacji każda z kolorowych linii powinna być tyle samo czasu pod średnią, co nad średnią.
Za chwilę spojrzymy szczegółowo na te wykresy z bliska. Najpierw podsumowanie tych samych danych w nieco innej formie. W idealnej sytuacji wszystkie pudełka na poniższych wykresach powinny przecinać linię 0%. Czarne poziome linie to średnie z danego panelu.
Skrzyżowanie partii z pracowniami:
oraz pracowni z partiami:
Muszę zwrócić uwagę, że tak naiwnie policzone dane potwierdzane są przez dane, które publikuję w wynikach modelu nr 1. Z tabeli na końcu wyniku modelu można pobrać konkretne liczby i informację o ich istotności.
PO
Długa prosta w wynikach GFK to artefakt z okresu, gdy GFK nie publikowało wyników sondaży wyborczych.
Bardzo dobrze widać, że wyniki CBOS tylko w pojedynczych przypadkach spadają poniżej miesięcznej średniej. Ciekawie wygląda wykres TNS - do roku 2014 zwykle wynik był systematycznie zawyżony, a przez cały 2014 pojawia się tam gdzie powinien być: blisko średniej, czasem nad nią, a czasem pod nią.
PiS
To niemal lustrzane odbicie rezultatu PO. CBOS systematycznie podaje niższy rezultat niż pozostałe pracownie. Intrygujący jest też wystrzał wyniku TNS w połowie 2014, po którym nastąpiła korekta.
SLD
SLD to partia faworyzowana przez Homo Homini i niezbyt lubiana przez GFK (lub ich model).
Twój Ruch
Wyniki TR teraz są już zupełnie płaskie, a wynika to z faktu, że publikowane wyniki mówią o poparciu rzędu kilku procent przy czym podawane wartości są wyrażone w zaokrąglonych całych punktach procentowych.
PSL
CBOS podawał systematycznie lepszy rezultat PSL w porównaniu z innymi pracowniami.
KNP
Ostatnio pisałem, że choć TVN z KNP się gryzie, to jednak wyniki MillwardBrown (SMG/KRC) pokazywały coś odwrotnego - tam KNP miało systematycznie większe poparcie. Wydaje się, że korekta nastąpiła po stronie sondażowni.
Inspiracją wpisu i takiej formy prezentacji był wpis Gregora Aischa o niemieckich firmach badawczych i sondażach przed wyborami do Bundestagu we wrześniu 2013.
Gregor miał komfort używania danych z okresu 14 lat, więc mógł sobie pozwolić na liczenie mediany dla każdego kwartału.
Brak komentarzy:
Prześlij komentarz