Выбрать главу

Ответ заключается в том, что мы говорим не об индивидуальных отцах и сыновьях, а о двух популяциях — отцовской и сыновней. Допустим, мы отобрали отцов, чей рост ровно 6 футов. Это больше среднего, поэтому средний рост их сыновей будет тоже выше среднего, но ближе к среднему, допустим, 5 футов и 11 дюймов. Однако множество пар, в которых рост отца равен 6 футам, не совпадает с множеством пар, в которых рост сына — 5 футов 11 дюймам. В первом множестве рост всех отцов равен 6 футам по условию задачи, а вот во втором окажется несколько отцов с ростом больше 6 футов и много отцов ниже 6 футов. Их средний рост будет ниже, чем 5 футов 11 дюймов, и таким образом регрессия к среднему снова обнаружит себя.

Другой способ наглядно изобразить регрессию — построить диаграмму, называемую точечным графиком (см. рис. 9). Каждая пара из отца и сына на нем представлена точкой, при этом ее положение по оси X определяется ростом отца, а по оси Y — ростом сына. Таким образом, отец и сын, оба ростом 5 футов 9 дюймов (или 69 дюймов), вместе окажутся на графике точкой с координатами (69; 69) прямо по центру точечного графика. Отец ростом 6 футов (или 72 дюйма) и сын ростом 5 футов 11 дюймов (71 дюйм) попадут в точку (72; 71) в северо-западной части нашей диаграммы. Обратите внимание, что облако полученных точек приближается по форме к эллипсу — факт, принципиальный для анализа Гальтона и характерный для нормального распределения для двух признаков.

Как показано на рис. 9, пары, в которых отцы ростом 72 дюйма, располагаются в вертикальном сегменте эллипса с центром в точке 72, а пары, в которых рост сыновей 71 дюйм, расположены в горизонтальном сегменте с центром в точке 71, что графически доказывает, что это две разные выборки. Сосредоточившись только на первой из них, парах с отцами ростом 72 дюйма, мы зададим вопрос, каков средний рост сыновей или, что то же самое, где находится центр этого вертикального сегмента (на глаз можно прикинуть, что центр приходится примерно на 71). Если мы рассмотрим только вторую выборку, в которой рост сыновей 71 дюйм, и спросим, каков средний рост их отцов, это будет равносильно нахождению центра горизонтального сегмента — легко увидеть, что он находится где-то на отметке 70,3.

Двигаясь дальше, выполняем такую же процедуру для всех вертикальных сегментов. Это равносильно вопросу «Каков наиболее вероятный рост сыновей (Y) для отцов ростом X?». И наоборот, рассматривая все горизонтальные сегменты, выясняем, где центр каждого из них: каким окажется (вернее, был, тут мы предсказываем прошлое) наиболее вероятный рост отцов для сыновей с ростом Y.

Размышляя над этими вопросами, Гальтон подошел к важному моменту: предсказания всегда располагаются на линии, названной им линией регрессии, которая расположена более полого, чем главная ось (или ось симметрии) данного эллипса. На самом деле таких линий две — в зависимости от того, данные каких из двух переменных известны и взяты в качестве основания для прогноза, а какие надо предсказать. Можно предугадать рост сыновей по росту отцов, а можно и наоборот. Ситуация совершенно симметрична. И это еще раз демонстрирует нам, что в случаях, где наблюдается регрессия к среднему, между причиной и следствием нет разницы.

Наклон линии регрессии позволяет нам предсказывать значение одной переменной, если нам известны значения второй. В терминах задачи Гальтона наклон в 0,5 означает, что каждому дюйму сверх среднего в росте отца соответствуют дополнительные полдюйма роста сына и наоборот. Наклон, равный единице, свидетельствовал бы о точной корреляции, т. е. каждый дополнительный дюйм роста у отца передавался бы по наследству сыну, который тоже был бы на этот дюйм выше. Наклон кривой не бывает больше единицы: в таком случае сыновья высоких отцов были бы в среднем выше, а сыновья отцов небольшого роста были бы ниже последних, а распределение роста в популяции становилось бы со временем все шире и шире. Через несколько поколений некоторые люди были бы трехметрового роста, а другие — ростом меньше метра, чего в природе не наблюдается. Таким образом, если распределение признака остается одинаковым от поколения к поколению, наклон линии регрессии не превышает единицы.

Закон регрессии применим даже тогда, когда мы рассматриваем корреляцию двух совсем разных признаков, например рост и ай-кью. Если расположить значения одного признака относительно значений другого на точечном графике и правильно подобрать масштаб обеих осей, наклон наиболее близко подходящей прямой всегда будет обладать теми же свойствами. Он равен единице только тогда, когда значения одного признака можно четко предсказать по значениям другого; он равен нулю, если связи между признаками нет и предсказание равносильно случайности. После масштабирования наклон прямой одинаков вне зависимости от того, рассматриваем ли мы признак Х относительно признака Y или наоборот. Другими словами, наклон прямой ничего не говорит нам о том, что в данном случае причина, а что следствие. Одна переменная обусловливает значения другой, или обе они обусловливаются третьей; для предсказания их значений это не важно.