Это не последняя из проблем. Ответ на вопрос о намерениях голосовать должен быть переведен в прогноз поведения избирателей. Люди дают более честные ответы на одни вопросы, чем на другие; совокупная статистика продаж показывает, что они гораздо надежнее сообщают о потреблении молока, чем о потреблении алкоголя. Кроме того, необходимо преобразовать прогнозируемые доли голосов избирателей в ожидаемый результат выборов. Для референдума - такого, как голосование в Великобритании по Brexit в июне 2016 года, в котором все, что имело значение, это количество голосов с каждой стороны - этот перевод от голосов к результатам прост (хотя многие опросчики ошиблись в своих оценках голосов). Но когда президент выбирается коллегией выборщиков или состав правительства зависит от результатов в отдельных избирательных округах, требуется дополнительное моделирование. На двух крупных выборах 2016 года - президентских выборах в США и референдуме Brexit - неспособность опросчиков предугадать результат была следствием неспособности их моделей перевести исходные данные в точный прогноз - проявление проблемы Виниара.
После всеобщих выборов 2015 года в Великобритании, на которых Консервативная партия вопреки прогнозам получила абсолютное большинство голосов, и непредвиденных результатов референдума Brexit, многие опросчики в Великобритании продолжили корректировать свои модели, признавая, в частности, что их процедуры недооценивали силу консерваторов. В результате в ходе кампании по всеобщим выборам 2017 года прогнозы различных опросных групп были необычайно разбросаны. В итоге только две фирмы - YouGov и Survation - приблизились к правильному результату. YouGov правильно рассудила, что корректировки моделей, которые улучшили бы результаты опросов в 2015 году, сильно отличались от тех, которые требовали другие обстоятельства и другие вопросы 2017 года, когда студенты и другие молодые или космополитичные избиратели в неожиданно большом количестве голосовали против Консервативной партии Терезы Мэй. Survation, напротив, внесла меньше корректировок в свою первоначальную модель 2015 года, чем их конкуренты, и оказалась ближе, чем любая другая опросная группа, к окончательному результату. Очевидно, что любое предсказание опирается на некую базовую модель, и как достоверность предсказания, так и доверие к нему зависят от эмпирической релевантности этой модели. Даже когда проблема кажется чисто статистической - как считали многие опросчики - радикальная неопределенность и ее следствие нестационарности вмешиваются, чтобы сделать прогнозирование чем-то, кроме статистики.
Ложные истории и фальшивая статистика
В марте 2015 года британская бульварная газета Daily Express вышла с заголовком "Шоколад ускоряет потерю веса; исследование утверждает, что он снижает уровень холестерина и помогает заснуть". Подобные истории появились и в других СМИ. Они были основаны на статье, опубликованной в журнале International Archives of Medicine, который называет себя рецензируемым журналом с открытым доступом - одним из многих подобных журналов, некоторые из которых являются авторитетными, а некоторые - менее, которые появились в эпоху цифровых публикаций. Отчет был основан на исследовании; авторы действительно установили, что выбранная ими группа, которая придерживалась низкоуглеводной диеты, дополненной шоколадом, потеряла вес по сравнению с аналогичной группой, не употреблявшей шоколад. Потеря веса была названа "статистически значимой"; также было отмечено положительное влияние на уровень холестерина и сон, но оно было ниже уровня, который классическая частотная статистика считает значимым.
В исследовании точно сообщалось о его результатах, но на самом деле это была подделка, созданная немецкими учеными и журналистами, чтобы разоблачить низкие стандарты экспертной оценки, применяемые некоторыми якобы научными журналами, и доверчивость газет, их журналистов и редакторов. А их доверчивость стала примером, в крайней форме, широко распространенного злоупотребления вероятностными рассуждениями в науке и экономике. Что подразумевалось под "статистически значимым" в этом "исследовании", так это то, что вероятность того, что наблюдаемая в ходе исследования потеря веса является результатом случайности, составляла менее 5%. Но, как мы показали выше, любое утверждение о вероятности вытекает из модели, которая описывает, как были получены наблюдаемые данные, и обоснованность утверждения зависит от обоснованности модели. Что представляет собой модель в данном случае?