Выбрать главу

Если дисперсия невелика, то вероятность встретить значения, сильно отличающиеся от среднего, мала, и наоборот.

Эту врезку читать необязательно, но, если вы хотите узнать, как работают размер выборки и нормальное распределение, не пропускайте ее.

Роль выборки удобно демонстрировать на примере игры в кости. Она сводится к тому, что бросаются два кубика, а очки на них суммируются.

Таким образом можно получить 11 различных результатов – от 2 до 12. Но вероятности их выпадения разные.

Представим, что мы сначала бросаем одну кость, а потом – другую. Если на первой выпало 1, то, что бы ни было на второй, 12 в сумме не получить. А если выпало не 1, то в сумме не выйдет 2. Число X на первой кости ограничивает сумму значениями от X + 1 до X + 6.

При этом сумму 7 можно получить всегда, независимо от того, что выпало при первом броске. Если 6, то 7 выйдет, если на второй кости выпала единица. Если на первой выпало 2, а на второй 5, в сумме получится 7. И так далее, вплоть до 6 на первой кости и 1 на второй. Поэтому независимо от значения первой кости вы получите в сумме 7 с вероятностью 1/6.

Кости могут выпасть в общей сложности 36 комбинациями. В шести случаях сумма равна 7, так что вероятность получить 7 равняется 6/36, или 1/6. В пяти случаях сумма равна 8, и в пяти – 6. В четырех – 9 и в четырех – 5. И так далее. А вот 2 можно получить только одним способом, и 12 – тоже одним.

Это можно доказать математически, как мы только что сделали, но в этом можно убедиться и на практике, бросая кости. Бросив их 36 раз, вы вряд ли получите в точности шесть раз 7, пять – 6 и т. п. Но если сделать это миллион раз, то сумма 7 выпадет практически в точности в 1/6 части случаев, а 2 – один раз из 36.

Предположим, вы хотите эмпирически определить, как часто на двух костях в сумме выпадает 7. Основной принцип тут такой: чем больше раз вы бросите кости, тем больше размер выборки и тем точнее окажется ваш прогноз, сколько раз сумма будет равна 7.

Если бросить кости 20 раз, то с вероятностью 95 % количество 7 будет в интервале от 1 до 6. Это 6 возможных вариантов – более 25 % от общего числа вариантов.

Если бросить кости 100 раз, то с вероятностью 95 % количество семерок будет в интервале от 11 до 25: всего 15 % от возможного числа вариантов.

Если бросить кости 1000 раз, то с вероятностью 95 % количество семерок будет в интервале от 140 до 190. Число вариантов сузилось до 4,6 % от общего числа.

То же самое произойдет для любой другой суммы: число двоек будет все больше приближаться к 1/36, как и две шестерки; такая закономерность сохранится и для всех промежуточных чисел.

Включая в свою выборку все большее число бросков, вы будете все ближе к «правильному» распределению.

* Тех, кто дочитал до этого места, ждет небольшой приз. Вас могут позабавить проблемы, возникшие у Джо Уикса (этот доброхот помогал Великобритании пережить локдаун физкультурными занятиями на ютубе, которые он проводил ежедневно из своей гостиной). Он пытался внести в выпуски элемент случайности – присвоил упражнениям номера от 2 до 12 и бросал кости, но был неприятно удивлен, что упражнение № 7 («бёрпи») приходилось делать намного чаще, чем № 2 (прыжок звездой). Поняв свою ошибку, Уикс заменил кости рулеткой.

С ростом мужчин у вас получилось простое распределение вокруг среднего значения. Если вы действительно выбираете мужчин случайным образом, то чем больше вы их измерите, тем больше ваша выборка будет напоминать популяцию в целом, точно так же как в примере с костями из врезки.

Но, предположим, вы хотите выяснить что-то другое – например, выздоравливают ли пациенты, принимающие определенное лекарство, быстрее не принимающих. В этом случае вы измеряете не одну величину, а две: насколько быстро выздоравливают те, кто принимает лекарство, и те, кто его не принимает.

Вы хотите узнать, есть ли различия между этими группами. Однако тут, как и в случае с измерением роста, бывают случайные отклонения. Если взять двух пациентов и одному давать лекарство, а другому – нет, то принимающий лекарство может выздороветь быстрее просто за счет более крепкого здоровья.

Поэтому вы берете целый коллектив больных и случайным образом разделяете его на две группы: одной даете лекарство, а другой – плацебо. Затем вычисляете среднее время, за которое идет на поправку каждая из них, точно так же как вы вычисляли средний рост мужчин. По сути, вы делаете то же самое: изучаете выборку из одной популяции (тех, кто принимал лекарство) и другой (тех, кто не принимал). Если окажется, что первая в среднем выздоравливает быстрее, то логично предположить, что лекарство ускоряет выздоровление.