3. Променливост на оценките на проучването

Докато предишните раздели на този доклад се фокусираха върху видовете систематични пристрастия, които може да са най-тревожните, когато става въпрос за проучвания на общественото мнение, също е важна вариацията (или точността) на оценките. Анкетиращите най-често говорят за прецизност от гледна точка на „граница на грешка“ (MOE), която описва колко оценки на проучването се очаква да отскочат, ако някой повтори анкетата много пъти идентично. За проучванията, основани на вероятности, допуснатата грешка обикновено се основава на присъщите математически свойства на случайните извадки. За проби за включване това не е възможно. Вместо това MOE трябва да се основава на предположения за моделиране за това как биха изглеждали други хипотетични проби, ако същият процес на вземане на проби се повтори многократно. Въпреки че интерпретацията е до голяма степен същата като при извадки, базирани на вероятности, ние я наричаме „моделирана“ граница на грешка, за да потвърдим изрично разчитането на тези предположения.22.

Този вид грешка ев допълнение къмвсякакви систематични пристрастия, причинени от непокритие, неотговор или самоизбор. Например, оценка с MOE от ± 3 процентни пункта и без пристрастия обикновено би попаднала в рамките на 3 точки от истината. Ако пристрастието беше +10 точки, една и съща граница на грешка би означавало, че оценките обикновено падат 7 до 13 точки по-високи от истината - разпределени по същия начин, но центрирани върху грешната стойност.


Докато размерът на извадката обикновено се счита за най-големия фактор при определяне на MOE, точността на изследването също се влияе от претеглянето. Включването на повече променливи в настройката обикновено води до по-голямо MOE, както и изхвърлянето на наблюдения при извършване на съвпадение.

За да видим как различните процедури влияят на променливостта, изчислихме моделираното MOE за всяка от 81 оценки от всичките 24 променливи на бенчмарка и взехме средната стойност.2. 3Непретеглена, средната граница на грешка на бенчмарковете е ± 1,3 процентни пункта за размер на извадката n = 2000. Тъй като размерът на извадката се увеличава, средният MOE се сви до нивото от ± 0,4 точки при n = 8 000.


Моделираната граница на грешка се увеличава само леко с добавянето на политически променливи

Едно ясно откритие е, че използването на политическите променливи в допълнение към основните демографски данни има минимален ефект върху допуснатата грешка. За всичките 14 метода и за всеки размер на извадката добавянето на политически променливи към процедурата за корекция никога не увеличава средното MOE с повече от 0,2 процентни пункта. В повечето случаи разликата беше дори по-малка, а в някои случаи средното MOE всъщност беше по-малко с политическите променливи, отколкото без.24Предвид този последователен модел, останалата част от този раздел ще се съсредоточи само върху процедури, които се адаптират както към демографските, така и към политическите променливи.

Загубата на прецизност от съвпадение започва малка, но бързо се увеличава с размера на извадката

При по-малки размери на извадката изборът на статистически метод също има относително малък ефект върху точността на оценките. Когато n = 2000, четирите най-ефективни метода за намаляване на пристрастията (рейкинг плюс комбинираните методи, които използват рейкинг като краен етап: P + R, M + R и M + P + R), имат среден процент на грешка от ± 1,9 процентни пункта. Другият метод на комбиниране, съвпадение, последвано от претегляне на склонността (M + P), е много близък, на ± 1,8 точки. Съпоставянето и претеглянето на склонността сами показват малко по-ниски MOE съответно с ± 1,6 и ± 1,5 процентни пункта - умерено подобрение, но малко вероятно, за да компенсират факта, че тези методи се представят сравнително слабо по отношение на пристрастията.

Фактът, че два метода, които запазват всички интервюта (рейкинг и P + R), може да има същото средно MOE като два, за които една четвърт от интервютата се отхвърлят (M + R и M + P + R), може би е изненадващ, въпреки че служи за подчертаване на различните компромиси, свързани с всеки подход. За първите оценките използват пълния размер на извадката, но намаляването на пристрастията се постига чрез по-променливи и екстремни тегла, което има тенденция да увеличава вариацията на оценките на изследването. За последното изчисленията използват само съответстващите 1500 случая, но теглата, генерирани от последващите стъпки за претегляне на склонността и гребене, са по-малко екстремни.



С увеличаването на размера на извадката обаче се увеличава и делът на интервютата, които се отхвърлят в процеса на съвпадение и полученото наказание бързо става голямо спрямо методите, които запазват всички интервюта. В това проучване, когато размерът на извадката достигне 8000, методите, които запазват всички интервюта (рейкинг и P + R), имат средно MOE от ± 0,5. За разлика от това MOE за двата метода за съвпадение (M + R и M + P + R) спадна до ± 1,4 при този размер. Забележително е, че използването на претегляне на склонността като първа или втора стъпка изглежда няма почти никакъв ефект върху средната граница на грешка, когато е последвано от гребене.


За пълните извадкови оценки ползите от сложните статистически методи са ситуационни

Ако корекцията обикновено включва компромис между намаляване на систематичната грешка (пристрастие) и увеличаване на случайна грешка (дисперсия), какъв е най-добрият подход? За да намерят точния баланс между намаляване на пристрастията и повишена променливост, статистиците често използват мярка, известна катогрешка средно на квадрат(RMSE). RMSE измерва комбинирания ефект на двете пристрастияиотклонение от общия размер на грешката в оценката на изследването. Въпреки че методите, които комбинират съвпадение с други техники, изглеждат с малко предимство, когато става въпрос за намаляване на пристрастията, фактът, че те също са склонни да имат по-голяма граница на грешка, означава, че всяка печалба в точността може да бъде затрупана от големи увеличения на вариацията.

За да се тества това, средният RMSE е изчислен за всички 24 променливи на бенчмарка и е сравнен по три метода за настройка: рейкинг, тъй като той е най-често срещан на практика; двустепенната P + R, която произвежда малко по-малко пристрастни оценки, отколкото самото рейкиране със същата граница на грешка; и тристепенната техника M + P + R, която обикновено е с най-ниска прогнозна пристрастност за сметка на изхвърлянето на интервюта. За краткост дискусията е ограничена до случаите, когато се използват както демографски, така и политически променливи, въпреки че общият модел е един и същ.


Проучването установи, че осреднено по всичките 24 базови променливи, P + R и M + P + R са неразличими един от друг при всеки размер на извадката - и двете имат среден RMSE между 6,4 и 6,2 процентни пункта при размери n = 2,000 и n = Съответно 8000. Най-просто казано, като цяло, общият размер на грешката е еднакъв и за двата метода. Средно M + P + R дава оценки с малко по-голяма вариабилност от P + R, но компенсира чрез по-ниско пристрастие. Рейкингът беше само малко по-висок, преминавайки от 6.5 при n = 2000 до 6.3 при n = 8000 - разлика от само 0.2 точки.

Въпреки че всички тези методи бяха приблизително еквивалентни като цяло, имаше важни разлики за някои теми от проучването в зависимост от нивото им на пристрастие преди корекцията. За повечето теми моделът беше в съответствие с това, което видяхме във всички променливи. Обаче по-специално за две теми се очерта различен модел. За въпроси, свързани със семейството, рейкингът произвежда най-ниската RMSE, последвана от P + R, като M + P + R е значително по-висока от останалите. Преди претегляне, свързаните със семейството променливи са имали най-ниското средно пристрастие от всички теми и претеглянето е имало слаб ефект. Следователно, нито една от тези оценки не вижда много в начина на намаляване на пристрастията, без значение какъв метод е бил използван. При гребенето и P + R има поне ползата от по-ниската дисперсия при по-големи размери на пробата, въпреки че P + R се справя малко по-зле поради по-голямата си сложност. С M + P + R изхвърлените интервюта се губят до голяма степен, защото няма намаляване на пристрастията, за да компенсира по-голямата вариабилност.

Обратното е вярно за политическия ангажимент, който е имал най-високата оценка на пристрастията преди корекцията. Тук печалбите от по-ефективното съвпадение при по-големи изходни размери, дори след отхвърляне на 6500 от 8000 интервюта, надвишават ползите от по-ниската вариабилност, която идва с методите, които използват пълната извадка.

Като цяло тези открития предполагат, че по-голямата ефикасност на сложните статистически техники е силно ситуативна. Тристепенният метод M + P + R доведе до реални подобрения в общата грешка за критериите за политическа ангажираност, като дори отчете значително наказание по отношение на променливостта. Въпреки това, изчислените пристрастия за тези мерки бяха високи за начало и дори най-ефективната корекция остави много пристрастия. Когато пристрастието е ниско, добавената сложност просто увеличава общото ниво на грешки спрямо по-опростените методи, какъвто беше случаят с бенчмарковете, свързани със семейния състав. За повечето други теми разликите бяха минимални.