Выбрать главу

Суть в том, что две переменные коррелируют, если изменения в одной из них ассоциируются с изменениями в другой. К примеру, рост и возраст детей коррелируют, потому что увеличение возраста соответствует увеличению роста: дети, как правило, с годами растут. Эти соотношения могут быть выборочными (измерения множества детей различного возраста за один раз), временными (измерения одного ребенка в течение жизни) или учитывать оба фактора (измерения разных людей в течение долгого срока). С другой стороны, между ростом и месяцем рождения нет долговременной корреляции. Это значит, что если месяц рождения варьируется, то рост так регулярно не меняется.

На рис. 3.1 (a) продемонстрировано, как возрастные изменения соотносятся с изменениями роста. Если увеличивается одна переменная, вместе с ней растет и другая. Напротив, на рис. 3.1 (б), где показаны рост и месяц рождения, мы видим набор случайно размещенных точек: месяц рождения варьируется, но соответствующего изменения в росте нет.

Рис. 3.1. Возраст и рост коррелируют, но рост и месяц рождения – нет

Это также означает, что, зная возраст ребенка, мы можем примерно предсказать его рост, а зная месяц рождения – нет. Чем ближе точки друг к другу, формируя линию, тем точнее наши прогнозы (поскольку при этом взаимосвязи теснее). Предсказание – одна из ключевых сфер применения корреляций, и в ряде случаев его можно сделать и без причинных взаимосвязей (хотя не всегда успешно).

Когда корреляции сильны, они могут приобретать видимые очертания, как на рис. 3.1 (a). Но нам необходимы методы измерения этой силы, чтобы провести количественное сравнение и оценку. Существует много единиц измерения корреляций, а одна из них наиболее употребительна – коэффициент корреляции Пирсона (обычно его обозначают буквой r)[113]. Этот показатель может иметь значение от 1 до –1. При значении 1 переменные обладают абсолютной положительной корреляцией (положительное изменение одной переменной прямо соответствует положительному изменению другой), а значение – 1 говорит об их абсолютной отрицательной корреляции (если одна переменная уменьшается, другая всегда увеличивается).

Получается, коэффициент корреляции Пирсона показывает, как варьируются вместе две переменные по сравнению с индивидуальными модуляциями (эти две меры называются «ковариация» и «вариация»). К примеру, мы можем отметить, сколько часов студенты в некой группе проводят за подготовкой к заключительному экзамену, чтобы посмотреть на соотношение показателей. Зная о наборе экзаменационных баллов и количестве часов, проведенных за подготовкой, но не имея возможности сопоставить итоговые оценки и соответствующие временные показатели, мы не определим, есть ли между ними корреляция. В этом случае получится наблюдать индивидуальные вариации каждой переменной, но не их взаимоизменения. То есть мы не можем выяснить, действительно ли большее время, потраченное на занятия, сопровождается более высокими оценками.

Без вариации нет корреляции

Скажем, вы хотите узнать, как получить грант, поэтому спрашиваете всех друзей, которые его имеют, что, по их мнению, помогло им. Все кандидаты оформляли заявку шрифтом Times New Roman; согласно мнению половины, важно, чтобы на каждой странице была как минимум одна иллюстрация; а треть рекомендуют представить заявку за 24 часа до установленного срока.

Означает ли это, что есть корреляция между названными условиями и получением гранта? Нет, не означает, потому что, не видя вариации исходного результата, нельзя определить, соотносится ли с ним какой-то иной фактор.

К примеру, если в течение некоей последовательности дней, когда температура доходила до 80°F (примерно 26,6 °C), на углу улицы стояли две тележки с мороженым, трудно сказать о корреляции погоды и мороженщиков, поскольку нет вариации значения той или другой переменной (температуры или количества мороженщиков). То же справедливо и для случая, когда есть вариация только одной переменной – например, на улице всегда два мороженщика, а температура изменяется от 80 до 90 градусов. Этот сценарий показан на рис. 3.2: отсутствие вариации ведет к тому, что данные скопились в одной точке, а модуляция единственной переменной дает горизонтальную линию[114]. Именно такой вариант в примере с грантом. Поскольку все результаты идентичны, нельзя сказать, что произойдет, если поменять шрифт или представить заявку за минуту до истечения срока.

вернуться

113

В математическом выражении коэффициент корреляции Пирсона (предложенный Карлом Пирсоном) выглядит так:

где  обозначает среднее значение. Обратите внимание: в числителе мы суммируем производное величины отклонения Х и Y в одной измеренной точке от их средних значений. В знаменателе получаем индивидуальную вариацию.

вернуться

114

Коэффициент корреляции Пирсона предусматривает деление на производное стандартных отклонений переменных. Тогда, если какое-либо стандартное отклонение равно нулю, показатель будет неопределенным, как результат деления на ноль.