Выбрать главу

Представьте, что, согласно переписи, и мужчины, и женщины составляют по 50 % населения. Вы проводите опрос, стараясь получить максимально репрезентативную выборку. Из вашей тысячи респондентов 400 – женщины и 600 – мужчины. Вы задаете вопрос: «Нравится ли вам сериал „Анатомия страсти“?» Оказывается, что 400 человек его любят, а 600 – нет. Можно было бы решить, что «Анатомии страсти» симпатизирует 40 % населения. Но, уточнив данные, вы обнаруживаете гендерный перекос: сериал нравится 100 % женщин и 0 % мужчин.

Вы получили 40 % потому, что ваша выборка не репрезентативна для населения страны в целом. К счастью, это легко исправить. Достаточно присвоить результатам веса. Вы знаете, что в вашей выборке женщин всего 40 %, хотя должно быть 50 %. И поскольку 50 на 25 % больше 40, увеличиваете 400 ответов «да» на 25 % и получаете 500.

С мужчинами делаете то же самое. В вашей выборке их 60 %, а в несмещенной должно быть 50 %. 50 составляет 0,833… от 60, следовательно, здесь вес составит 0,833…

Поэтому полученный вами результат 600 вы умножаете на 0,833… и получаете 500. Теперь взвешенные результаты показывают, что 50 % населения нравится сериал «Анатомия страсти».

Можно действовать более тонко. Например, если оказалось, что 50 % ваших респондентов на последних выборах голосовали за консерваторов, а вы знаете, что страна в целом отдала за них 40 % голосов, а за лейбористов – 35 %, то можете снабдить свою выборку соответствующими весами. Или, если в выборке преобладают люди старшего возраста, потому что вы со своими расспросами звонили на домашние телефоны, но вы знаете распределение населения по возрастам, то у вас тоже получится скорректировать это с помощью весов.

Конечно, это можно использовать, только когда вам известны точные статистические сведения. Если же вы думаете, что женщин и мужчин поровну, а на самом деле их 60 % и 40 %, то введение весов только ухудшит результаты. Но реальные цифры часто известны из результатов переписи или голосования.

Есть и другие способы смещения выборки. Первой приходит на ум формулировка вопроса. Например, если вы спрашиваете, дать ли лекарство 600 пациентам, ответ будет разным в зависимости от того, скажете ли вы, что «200 человек будет спасено» или что «400 человек умрут», хотя с точки зрения логики эти формулировки равноправны. Этот эффект обрамления (фрейминга) проявляет себя при опросах. На односложные вопросы (типа: должно ли государство оплачивать лечение?) чаще отвечают «да».

Ну и как? Правда ли, что британцы больше всего любят перекусывать тостами с сыром? Не исключено, что raisin.co.uk серьезно озаботилась репрезентативностью выборки и даже ввела веса для учета возрастных, гендерных и электоральных особенностей населения, но так ли это, мы просто не знаем. (Мы спрашивали! И если нам ответят, мы учтем это при переиздании, честное слово.)

Но тратить столько сил на чисто развлекательный опрос было бы довольно странно – мы бы удивились, если б они это сделали. Скорее всего, они просто разместили в сети анкету и получили ответы преимущественно от тех, кто участвует в интернет-опросах.

Вопрос в том, совпадают ли вкусы отвечавших и населения в целом. Могут и совпадать. Но этого мы не знаем. Знаем только, что из двух тысяч опрошенных ими людей 22 % выбрали тосты с сыром. Ну да, факт интересный сам по себе – из него следуют некоторые выводы в отношении этих двух тысяч. Но скорее всего, это мало что говорит обо всех британцах.

Глава 5

Статистическая значимость

Верно ли, что мужчины больше едят в присутствии женщин, чтобы произвести на них впечатление? Так утверждалось в новости, вышедшей в 2015 году в The Daily Telegraph. Об этом же исследовании писали и в Reuters, и в The Economic Times в Индии.

В тех публикациях говорилось, что в присутствии женщин мужчины едят на 93 % больше пиццы и на 86 % больше салата, чем в присутствии других мужчин. Они опирались на исследования Брайана Вансинка, психолога из лаборатории пищевых продуктов и торговых марок Корнеллского университета, и двух его соавторов.

Вы уже могли догадаться, в историях, о которых мы рассказываем в этой книге, не все числа надежны. Однако в данном случае это не вина журналистов. Здесь само исследование оказалось совершенно неправильным, и этот случай очень показателен: на его примере видно, как работает и не работает наука. Чтобы разобраться, почему приведенной статистике нельзя доверять, нам придется углубиться в механизмы научной деятельности. Если вы в них разберетесь, то многое из того, о чем мы расскажем в последующих главах, будет гораздо прощепо– нять.

Почти в любой публикации о науке и числах встречается термин «статистическая значимость». Вам простительно думать, что речь идет о важности чисел, о которых вы читаете. К сожалению, все намного сложнее. Вот что это значит, согласно публикации 2019 года: