SRS vs. Cluster

Mircea Comșa

Ce-o fi și cu marja asta de eroare (teoretică, un adaos mult prea adesea uitat)? În cele mai multe sondaje o vedem pe la +/-3%, în altele mai urcă sau coboară puțin, în funcție de institutul de sondare sau de mărimea raportată a eșantionului. În vremuri normale, nu prea naște ea controverse și e pusă acolo să respecte cerințele CNA. Ca multe alte lucruri și reguli din lumea asta românească, marja se află în treabă pentru că așa scrie undeva la lege că trebuie să fie, nu că oamenii chiar ar ști despre ce e vorba sau ar respecta-o. Însă, când se raportează datele de la exit-poll-uri, cei pricepuți o bagă în seamă și o întorc pe toate fețele. Comentariul de față vine în sprijinul acestora, cu scopul de a-i face să problematizeze și să reflecteze asupra aspectelor practice ale eșantionării specifice cercetărilor de tip exit poll.

De obicei, numărul de respondenți la o cercetare de tip exit-poll în România ultimelor alegeri e de cel mult 20.000 (există însă sondaje la ieșirea de la urne mai vechi care au ajuns până la eșantioane de 50.000 de subiecți). La văzul unui volum atât de mare de respondenți oamenii se așteaptă ca datele de la exit poll să aibă și o precizie mult mai mare, adică o marjă mult mai mică decât în cazul eșantioanelelor comune. Reacția cea mai des întâlnită este: „dacă la un eșantion de 1.000 de subiecți marja de eroare e de +/-3%, atunci la 20.000 trebuie să fie undeva spre 0, cel mult 0,5%.” Ca de obicei în astfel de cazuri, oamenii simplifică lucrurile sau nu se informează în prealabil asupra modalității de calcul specifice diferitelor tipuri de eșantionare. Ambele situații sunt pe deplin de înțeles, însă, pentru o bună informare, merită explicate anumite aspecte tehnice.

Așadar, cum e cu marja de eroare teoretică în cazul unui exit-poll? Să pornim de la cazul unui eșantion aleator simplu (SRS = simple random sample) de 20.000 de subiecți. În cazul acestuia, marja de eroare teoretică pentru o dispersie maximă (adică 50% din eșantion votează cu x și 50% cu y), este undeva pe la 0,7% (rotunjit), cu o probabilitate de 95%. În cazul unei cercetări de tip exit-poll, eșantionul nu este însă SRS. Cel mai adesea astfel de eșantioane sunt de tip stratificat + cluster + sistematic aleator (adică include fiecare a n-a persoană care iese de la urne de la fiecare secție de vot selectată în eșantion). Pentru astfel de eșantioane marja de eroare se calculează altfel decât în cazul SRS și este semnificativ mai mare. Pe scurt, clusterizarea (selectarea unor secții în stadiul 1 și nu direct a indivizilor) crește marja de eroare teoretică, iar stratificarea (selectarea aleatoare a secțiilor de vot astfel încât să te asiguri că au intrat în eșantion, în proporția corectă, secții din toate tipurile relevante, adică și din urban și din rural, și din Moldova și din alte regiuni, etc.) o reduce.

Cele doua efecte nu se anuleaza însă, situația obișnuită fiind aceea în care marja teoretică pentru un astfel de eșantion este semnificativ mai mare decât în cazul unui eșantion SRS. Două elemente importante care determină această diferență sunt numărul de secții de vot selectate în eșantion și rata de omogenitate (corelația intra-clasă) a comportamentului în studiu (de exemplu, pentru vot e in jur de 0,08-0,12, functie de alegeri și de numărul candidaților). La sondajele obișnuite institutele ignoră (nu discutăm aici despre motivele pentru care fac asta) efectele induse de stratificare și clusterizare și apreciază că marja de eroare este cea observată în cazul unui eșantion de tip SRS. De obicei, pentru a contra-balansa erorile care nu țin de eșantionare (cel mai adesea mult mai mari comparativ cu erorile legate de schema de eșantionare și, cu siguranță, mult mai dificil de estimat)institutele  preferă ca la exit-poll-uri să ignore efectul pozitiv datorat stratificării și să țină cont doar de efectul negativ produs de clusterizare (unele nu țin cont nici de asta și dau ca marjă de eroare pur și simplu marja pentru un eșantion SRS). Graficele de mai jos ilustrează diferența dintre SRS și cluster. Dupa cum se vede, marja de eroare teoretică pentru un eșantion de 250 de secții (roh de 0,10, o medie de 70 subiecți pe secție și dispersie maximă) este în jur de +/-2%. Se observă, așadar, că aceasta este tocmai marja de eroare menționată de IRES și CURS, aceste institute fiind și singurele care au declarat, pe site sau în media, o marjă de eroare teoretică pentru datele de exit poll pe care le-au făcut publice.

marja de eroare

Comentarii închise la SRS vs. Cluster

Din categoria Activități/Activities, Rezultate/Results

Comentariile nu sunt permise.