В предыдущей главе мы видели, как выборки небольшого объема, случайно оказавшись неудачными, искажают результаты. Вывод же о перекусах делался на основе опроса онлайн-банка Raisin, в котором участвовало две тысячи человек. Звучит убедительно?
Только вот исследование может оказаться недостоверным и по другим причинам. Самая очевидная – выборка не представляет население в целом.
Ранее мы проводили мысленный эксперимент – вычисляли средний рост населения, измеряя случайных прохожих. А теперь представьте, что вы делаете это на съезде баскетболистов, – и мимо вас – внезапно – дефилируют толпы двухметровых людей. Средний рост в вашей выборке резко подскочит, хотя для населения в целом останется неизменным.
Такая выборка называется смещенной, или предвзятой. Обычно так говорят о людях: судья предвзято относится к моей команде; СМИ предвзято подходят к моей любимой политической партии. Статистическая предвзятость – про то же самое. Представьте, что вы проводите опрос – «Назовите лучший футбольный клуб за всю историю Англии?» – сначала на Энфилд-Роуд, а потом на Сэр Мэтт Басби-Уэй. Вы получите совершенно разные результаты, потому что у вас будут совершенно разные выборки. [7][8]
Вред от смещенных выборок отличается от вреда маленьких. При выборе небольших групп случайным образом вы, по крайней мере, при увеличении размеров выборки приближаетесь к точному результату. А при смещенных выборках этого не происходит – будет расти лишь ваша уверенность в неверном результате.
Например, в преддверии общенациональных выборов 2019 года Джереми Корбин, тогдашний лидер лейбористской партии, и Борис Джонсон, премьер-министр и лидер тори, провели теледебаты.
После этого компания YouGov, специалист по политопросам, выяснила, что среди телезрителей мнения о том, кто же был убедительнее, разделились почти поровну: 48 % считали, что Джонсон, 46 % – Корбин и еще 7 % не могли определить победителя. (Да, в сумме получается 101 %. Так бывает, если округлять числа до ближайшего целого.)
Это вызвало споры в интернете. В одном вирусном твите (более 15 000 лайков на настоящий момент) упоминалось, что результаты других опросов резко отличались от данных YouGov[9] (см. рисунок на следующей странице).
Четыре из пяти опросов показали, что Корбин явно выиграл дебаты. У единственного, давшего иной результат, объем выборки был в несколько раз меньше, чем у каждого из остальных. Тем не менее только его и цитировали на всех новостных каналах. Говорит ли это о предвзятом отношении СМИ к Корбину?
Скорее, это пример смещенных выборок. Те четыре опроса проводились в твиттере. Обычно это – просто безобидное развлечение (полуфинал мировой лиги чипсов: Monster Munch Pickled Onion против Walkers Cheese & Onion и т. д.). Но иногда вопросы бывают политическими.[10]
Беда в том, что твиттер не представляет всего населения. Соцсетью пользуется 17 % британцев, и среди них, согласно опросу 2017 года, больше молодежи, женщин и представителей среднего класса, чем в целом по стране. А молодежь, женщины и средний класс чаще голосуют за лейбористов. (Ну и, конечно, те, кто увидел эти опросы и поучаствовал в них, не представляют твиттер в целом.)
Большее число опрошенных делу не помогло бы. Проблема сохранилась бы, ведь выборка оставалась бы нерепрезентативной. Даже миллион человек – это все равно опрос пользователей твиттера, а не населения страны. Вы бы получили только более точное значение неверного ответа.
Репрезентативную выборку вообще получить очень трудно. Опрашивая людей в твиттере, вы не узнаете мнения тех, кто им не пользуется. То же самое верно и во всех других случаях. Если проводить опрос в интернете, вы упустите из виду тех, у кого его нет; если на улице, то не охватите тех, кто сидит дома. Раньше при проведении политических опросов было принято обзванивать респондентов, потому что стационарные телефоны стояли почти у каждого и так можно было без труда получить случайную выборку – просто выбирая номера случайным образом. Но в наше время этот способ даст сильно смещенную выборку, потому что те, у кого есть домашние телефоны (и кто отвечает на звонки с неизвестных номеров), отличаются от тех, у кого их нет.[11]
Есть способы, которые отчасти помогают обходить подобные трудности при выборе респондентов. Но идеала достичь невозможно: никого нельзя заставить участвовать в опросе, поэтому вам никогда не удастся полноценно представить тех, кто их ненавидит. Так что приходится идти обходным путем – снабжать результаты весами.
8
На этой улице располагается домашний стадион футбольного клуба «Манчестер Юнайтед». –
9
По состоянию на 17 января 2022 года у этого твита 8709 ретвитов и 15,3 тысячи отметок «Нравится». –
10
World Cup of Crisps – неофициальный конкурс, организованный в 2012 году британским комиком и телеведущим Ричардом Османом. Проводился в твиттере: пользователи голосовали за любимые чипсы. В 2012-м победу одержали Frazzles, а в 2016-м – Monster Munch Pickled Onion.
11
Забавно, что теперь ситуацию можно считать в каком-то смысле обратной той, что была во времена американской избирательной кампании 1936 года. Тогда журнал