piątek, 31 maja 2013

Sondaż ewybory.pl 2013-05-31

Najnowszy sondaż wykonany przez portal ewybory.pl.

Nie wiem, czy to problem ze zbieraniem odpowiedzi, czy z prezentacją wyników, ale metodologia odbiega od pozostałych sondaży. Mamy prezentowane wyniki tylko osób chcących głosować i tylko zdecydowanych.

W tej chwili na portalu nie pojawiają się już odnośniki do plików ze szczegółowymi wynikami.
Kiedy jeszcze były ujawniane (np. w lutym), to można było się dowiedzieć, że z całej próby 2000 osób wszyscy byli zdecydowani iść głosować i wiedzieli na jaką partię.

Jeśli ten warunek ("chcę iść głosować i wiem na jaką partię") jest rzeczywiście kryterium przeprowadzenia wywiadu i dołączenia odpowiedzi do zbioru wyników, to próba już nie jest reprezentatywna, a te wyniki są obciążone w stosunku do innych pracowni. Nie twiedzę, że to źle. Inaczej mówiąc: ewybory.pl raportuje coś innego, niż pozostałe sondażownie.

Spróbujemy dowiedzieć się na ten temat czegoś więcej w następnych wpisach z analizami porównawczymi.


Kluczowe informacje:

  • PiS przed PO na 100% (to zaokrąglona liczba - te punkty, gdzie wąsy zachodzą na siebie to pojedyncze obserwacje ze 100000 symulacji)
  • SLD i Ruch Palikota w Sejmie na 100%
  • PSL na 63% ponad progiem wyborczym

Sondaż Homo Homini dla WP 2013-05-28

Wyniki sondażu dla Wirtualnej Polski. Nie podano frekwencji, więc założyłem taką samą, jak w poprzednim sondażu HH, czyli 46%.

Oto zwykłe słupki:
PSL ma minimalnie mniejsze poparcie niż w poprzednim sondażu. Ciekawe, z czego to wynika.

Wyniki mojej symulacji:
Kluczowe informacje:
  • PiS przed PO na 79%
  • SLD na pewno w Sejmie
  • Ruch Palikota na 80% w Sejmie, a na 89% z wynikiem lepszym od PSL
  • PSL w Sejmie na 15%
  • SP w parlamencie z 1% prawdopodobieństwem ponad progiem
Wkrótce analiza porównawcza pracowni na podstawie wyników z tego tygodnia.




wtorek, 28 maja 2013

Sondaż Homo Homini dla Rzeczpospolitej 2013-05-24

Sondaż wykonany dla "Rzeczpospolitej". W raporcie była wystarczająca ilość informacji, chociaż chciałoby się, żeby powiedziano coś więcej o frekwencji niż, że "46% zamierza głosować" - ile osób jest niezdecydowanych, a ile na pewno nie chce uczestniczyć w wyborach?

Oto zwykłe słupki:

Nie umieszczam na wykresie liczb, bo bez określenia poziomu błędu i tak nie można w nie za bardzo ufać.

Ruch Palikota i PSL mają identyczny wynik. W mojej symulacji jedna z tych partii jest minimalnie lepsza, ale nie należy przywiązywać do tego zbytniej wagi. Nawet w stu tysiącach rzutów uczciwą monetą nie da się uzyskać wyników rozłożonych idealnie po połowie pomiędzy orła i reszkę.

Kluczowe informacje:
  • PiS przed PO na 93%
  • SLD na pewno w Sejmie
  • RP i PSL w Sejmie na 81-82%
  • nie umieszczone na wykresie: SP ma prawdopodobieństwo 0,06% (6 promili) wejścia do Sejmu

Wkrótce kolejne posty z porównaniami wyników, już z ujęciem pracowni CBOS, TNS oraz HH.

czwartek, 23 maja 2013

Agregacja sondaży z bieżącego tygodnia

To ostatni wpis dotyczący sondaży CBOS, TNS (dla TVP Info) i TNS.

Tym razem przedstawię rezultat agregacji tych trzech sondaży.

Nie jest to zwykłe uśrednienie. Poniższe wyniki zostały obliczone tak, jakby wykonano jeden duży sondaż na niemal trzykrotnie większej próbie. Można bezpiecznie założyć, że wśród tych trzech tysięcy odpytanych osób żadna z nich nie odpowiadała na pytania dwóm różnym pracowniom. Wyniki zostały wcześniej znormalizowane - sprowadzone do wspólnej podstawy: jako procent z grupy zdecydowanych głosujących. Gdyby nie komplikacje z powodu niepełnych informacji o sondażu dla TVP Info, to zamiast agregacji mówiłbym po prostu o średniej ważonej.


Podobnie, jak we wpisie o sondażu dla TVP Info przyjąłem, też że w tym przypadku frekwencja wyniosła 54%, a próba miała wielkość 1000 osób.

Kluczowe obserwacje:
  • PiS przed PO na 92%
  • RP w Sejmie na 98%, na 82% z lepszym wynikiem niż PSL
  • PSL w Sejmie na 78%


środa, 22 maja 2013

Porównanie sondaży z bieżącego tygodnia

Przyszedł czas na pierwsze porównanie wyników z różnych pracowni.

Doniesienia o wynikach sondaży były na różnym poziomie. Najwięcej szczegółów podano do wyników sondażu TNS, wyniki CBOS były wystarczająco szczegółowo opisane, a najwięcej brakowało notatkom o sondażu TNS dla TVP Info.

Jedynym sposobem, aby porównać wyniki z różnych pracowni jest przedstawienie ich wobec wspólnego poziomu odniesienia.

W tym tygodniu pewną informacją jest tylko procent poparcia dla głównych pięciu partii wśród respondentów zdecydowanych, na kogo chcą głosować.

Odrzucamy zatem mniejsze partie oraz niezdecydowanych, a za 100% przyjmujemy tych, którzy chcieli głosować na jedną z pięciu partii: PiS, PO, SLD, RP, PSL. Dla wyników każdej z pracowni odpowiednio też zmieniliśmy wielkość próby.

Tak wyglądają wyniki po przeliczeniu do wspólnej bazy:

Czarne poziome linie to średnia z trzech wartości w każdym panelu. Szara linia na dole oznacza próg wejścia do parlamentu.

Oto te same wyniki z poziomami błędów po zastosowaniu prostego modelu Bayesowskiego:

Tylko trzy obserwacje to jednak za mało, aby wyrobić sobie jakieś zdanie o systematycznym błędzie popełnianym przez którąś z pracowni.

wtorek, 21 maja 2013

Sondaż TNS 2013-05-16

TNS w tym samym czasie wykonuje dwa sondaże. Jeden jest na zlecenie TVP Info (poprzedni wpis) i fatalnie raportowany, drugi (źródło) został przedstawiony wzorcowo. Podano nawet liczbę osób, które pytano o preferencje partyjne.

Zwykły nudny obrazek:

Moja analiza:

Tym razem nie musiałem czynić żadnych dodatkowych założeń. Wprost z raportowanych wyników było wiadomo, że wielkość próby to 969 osób i 49% (475) chce brać w wyborach i odpowiedziało na pytanie o preferencje. Było jasne, że to ta grupa była podstawą liczenia wartości procentowych.

Kluczowe informacje:

  • PiS jest liderem rankingu na 80%
  • RP jest w Sejmie na 99% i również na 99% z wynikiem lepszym niż PSL
  • PSL jest w Sejmie na 14%
Zastanawiające, jak wielka jest różnica w sposobie prezentacji wyników sondażu z dokładnie tej samej pracowni.


poniedziałek, 20 maja 2013

Sondaż TNS 2013-05-16 dla TVP Info

Nadrabiam zaległości z weekendu.

Oto wyniki sondażu TNS dla TVP Info (źródło). Niestety przekazane informacje są bardzo skąpe. Nie podano nawet wielkości próby!

Obrazek zwykły:
Nie umieszczam na nim liczb, bo nie mają wielkiego znaczenia.

Moja analiza:
Musiałem poczynić założenia:
  1. frekwencja to 54%  - znam ją z sondażu CBOS wykonanego w tym samym czasie
  2. wielkość próby to 1000 osób - po prostu mniej-więcej tyle wywiadów jest wykonywanych w badaniach tego typu
Kluczowe informacje:
  • PiS jest liderem rankingu na 71%
  • RP jest w Sejmie na 97% i na 75% z lepszym wynikiem niż PSL
  • PSL jest w Sejmie na 82%
Jeśli porównać te wyniki z sondażem CBOS z poprzedniej notki, to najbardziej rzuca się w oczy różnica w wielkości poparcia - np. dla PiS 34% z TNS wobec 26% z CBOS. Wynika to z tego, że CBOS do podstawy wlicza też niedecydowanych. W wynikach badania TNS pięć wymienionych partii daje w sumie 96%, zostaje 4% na inne partie. W wynikach z CBOS te pozostałe odpowiedzi dawały 29%.

W jednym z kolejnych wpisów przedstawię wyniki z różnych pracowni sprowadzone do wspólnej podstawy.

Sondaż CBOS 2013-05-17

Źródło danych: Onet.pl i tam też prosty wykres słupkowy podobny do tego niżej.

Największą rewelacją jest to, że teraz PiS jest na czele. Drugą odnotowaną informacją było to, że Ruch Palikota uzyskał wynik 4% i nie dostałby się do Sejmu. PSL miał 6% i nie powinien mieć z tym problemu.

Oto moja analiza:

Kluczowe informacje:
  • PiS jest liderem rankingu na 85% (w 15% to PO jest liderem)
  • SLD dostałby się do Sejmu na 99,99%
  • PSL jest w Sejmie na 86%
  • Ruch Palikota jest w Sejmie na 12%
CBOS podał wielkość próby (N=1101) oraz frekwencję (54%). Bardzo dziękuję!


Źródła danych

Źródłem danych są informacje prasowe publicznie dostępne w internecie. Staram się wyłuskać z nich maksimum informacji przy użyciu nowoczesnej statystyki.

Jakość prezentowania wyników sondażów jest zazwyczaj bardzo niska. Oto informacje, które powinny być zawsze umieszczane:
  1. wyniki: deklaracja udziału w wyborach, popierana partia i jej poparcie w procentach,
  2. wielkość próby
  3. co jest podstawą liczenia procentów:
    • cała próba
    • respondenci, którzy nie odmówili udziału w sondażu
    • respondenci, którzy deklarują udział w wyborach
    • respondenci, którzy deklarują udział w wyborach i powiedzieli, na którą partię chcą głosować
  4. metoda doboru próby – reprezentatywna, sondaż uliczny, sonda internetowa
  5. sposób zbierania danych – ankiety telefoniczne (CATI), internetowe, wizyta ankietera
  6. termin wykonania badania
Bardzo istotnym elementem jest informacja o tym, co jest podstawą liczenia procentów. Stąd właśnie wynikają rozbieżności w sondażach publikowanych w tych samym tygodniu, gdy jedna pracownia podaje poparcie lidera na poziomie 30%, a druga mówi o 43%.

Najczęściej różnica polega na tym, że pierwsza pracownia podaje wynik w odniesieniu do wszystkich, którzy chcą iść głosować, a druga w odniesieniu tylko do tej grupy, która wie na kogo chciałaby zagłosować.

W moich szacunkach staram się wydedukować, co faktycznie było podstawą liczenia procentów i odpowiednio określić parametry do replikacji.

Nie jestem związany z żadną pracownią i korzystam z publicznych źródeł informacji, dlatego pewne problemy pozostaną niewyjaśnione. Pracownie mają swoje bazy adresów i metody wykonywania sondaży, do których nie mamy dostępu.

Na tym blogu zajmuję się tylko błędem statystycznym. Nie jest wielkim odkryciem, że wyniki poszczególnych pracowni są obciążone też błędem systematycznym – niektóre zawsze mają np. niedoszacowany PSL, a przeszacowane wyniki PO.

Nie podejrzewałbym jednak nikogo o świadome manipulowanie. Wynika to raczej z trudności dotarcia do reprezentatywnej próby i wielkiej liczby odmów udziału w sondażach. A osoby, które nie chcą odpowiadać w sondażach też chodzą na wybory.

niedziela, 19 maja 2013

Zaczynamy


Start!

Głównym celem istnienia tego bloga jest wizualizacja wyników sondaży poparcia partii politycznych z uwzględnieniem ich niepewności (uncertainity).

W prezentacji wyników sondażu powinna być podana informacja o tym, że błąd statystyczny wynosi np. 3%, ale co to właściwie znaczy? Czy jeśli partia ma poparcie 5% to jej wynik wynosi między 2%, a 8%? 

Nigdy nie widziałem w prasie wyniku sondażu politycznego z wąsami błędów naniesionymi na słupki poparcia.

Na blogu będą też co jakiś czas publikowane zagregowane i ujednolicone (to nie to samo, co uśrednienie) wyniki sondaży wykonanych w tym samym czasie przez różne pracownie. 

Na blogu będą publikowane wykresy i komentarze dotyczące wyników sondaży przedwyborczych. Jednak nie jest to blog polityczny i nie będę dyskutował, która partia jest lepsza i dlaczego. Chodzi mi wyłącznie o podejście metodologiczne i wnioski z analizy błędu.

Chcę wycisnąć z politycznych słupków maksimum dostępnej informacji.

Mam nadzieję, że czytelnicy bloga będą chcieli poznać odpowiedzi na pytania w rodzaju:

  • czy zmiana poparcia na 32% wobec 30% w zeszłym tygodniu ma jakieś znaczenie?
  • czy wynik 6% naprawdę oznacza, że partia prawie na pewno wejdzie do Sejmu przy progu wyborczym 5%?
  • jakie jest prawdopodobieństwo, że kolejność partii wg ich poparcia jest właśnie taka, jak na słupkach?

Znalezienie odpowiedzi na takie pytania wymaga nieco skomplikowanych obliczeń, ale odpowiedzi te są łatwe do prezentacji i podsumowania na wykresie.

O mnie

Jestem niezależnym analitykiem, wykonuję tę pracę w swoim prywatnym czasie, nie działam na żadne zlecenie, nie jestem i nigdy nie byłem związany z żadną instytucją wykonującą badania poparcia partii politycznych.

Zapraszam do czytania i subskrypcji wpisów.