Выбрать главу

Мы не утверждаем, что отдельные наблюдения бесполезны. В жизни мы постоянно (и весьма успешно!) ими пользуемся: это очень неплохой ресторан, вам понравится этот фильм, его новый альбом – полный отстой. Но когда мы узнаем о них из прессы, крайне высока вероятность случайного совпадения, поэтому их польза весьма сомнительна.

В следующей главе мы поговорим о том, что происходит, когда числа становятся немного больше, и почему это немного лучше, но лишь немного.

Глава 3

Размеры выборки

Легче ли поднимать тяжести, когда бранишься? Несомненно, если судить по статье из газеты The Guardian. И в это нетрудно поверить: кто из нас не ругался на чем свет стоит, пытаясь поднять по лестнице икеевский шкаф, опрометчиво собранный не там, где надо. Возможно, это и помогало.

В той статье ссылались на исследование, проведенное в Кильском университете. В предыдущей главе мы говорили о том, как могут вводить в заблуждение новости, основанные на отдельных случаях. Лучше опираться на научные работы, не так ли?

Отчасти. Но не все научные исследования устроены одинаково.

Если вас не убеждает опыт одного человека, то опыт скольких людей убедит? Жесткого правила тут нет. Представим: вы хотите что-то узнать – например, рост британских мужчин. Вы – инопланетянин, британцев в глаза не видели и не имеете о них ни малейшего представления. Может, их рост – всего несколько микронов, а может – со звездное скопление. Откуда вам знать?

Если выстроить по росту всех британских мужчин до единого и измерить их, то вы увидите полную картину: очень высоких и очень низких людей мало и чаще встречаются люди среднего роста. Но чтобы узнать это, придется изрядно постараться, и даже размахивание гауссовым бластером не поможет. Вместо этого можно ограничиться выборкой.[5]

Выборка – это небольшая часть чего-то, отражающая, как вы надеетесь, часть целого. Бесплатная выпечка, выставленная у местной булочной, дает представление обо всем ассортименте; ознакомительный фрагмент электронной книги дает представление о книге в целом. Статистическая выборка делает то же самое.

И вот вы начинаете измерять рост случайных прохожих, создавая выборку населения. Если не повезет, то первым вам попадется человек ростом аж в 2 м 13 см. Это даст вам хоть какую-то информацию: гипотеза о том, что британские мужчины ростом со звездные скопления, становится гораздо менее правдоподобной. Но если вы сделаете вывод, у всех них рост 2 м 13 см, то сильно ошибетесь. (Еще одна иллюстрация того, что отдельные случаи не могут служить доказательством.)

Все это вы знаете, поэтому продолжаете измерять прохожих. Вы чертите простой график: каждый раз, когда вам встречается мужчина ростом 1 м 56 см, вы добавляете штрих в колонку «1 м 56 см»; если же рост прохожего составляет 1 м 85 см, вы добавляете штрих в колонку «1 м 85 см», и так далее.

Вы заметите, что по мере увеличения числа измерений график приобретает определенную форму. У вас окажется много отметок возле середины и меньше по краям. Получится что-то вроде арки старинного каменного моста. Самое большое число отметок окажется возле значения 1 м 78 см, почти столько же – около 1 м 73 см и 1 м 85 см, и совсем мало – по краям. Это будет кривая, напоминающая нормальное распределение – знаменитый «колокол», – с осью симметрии на значении роста среднего британского мужчины.[6]

Полностью колокол сформируется, когда вы измерите рост тысяч людей, а поначалу он будет неровным. Если не повезет и вам попадется несколько слишком высоких или слишком низких людей, то кривая выйдет искаженной. Но если вы измеряете рост действительно случайных прохожих, то в среднем чем больше людей вы измерите, тем ближе окажетесь к среднему значению всего населения. (Если ваша выборка не случайна, то возникнут другие проблемы – см. главу 4 «Смещенные выборки».)

Необходимо также учесть, насколько рост людей отклоняется от среднего. Предположим, что средний рост составляет 1 м 78 см. Если почти все люди такого роста и лишь некоторые – 1 м 83 см и 1 м 73 см, то ваш колокол окажется высоким и узким. Если же многие люди ростом 1 м 47 см а многие – 2 м 8 см и любое значение из этого промежутка тоже встречается часто, то колокол будет более широким и плоским. Такую вариативность данных описывает переменная, называемая дисперсией (см. график на следующей странице).

вернуться

5

Гаусс-бластер – мощное оружие в игре Warhammer. – Прим. ред.

вернуться

6

Нормальное распределение, или распределение Гаусса – распределение вероятностей для случайно величины, где наиболее частотно среднее значение; имеет колоколообразную кривую. – Прим. ред.