Поэтому после публикации его книги многие ученые стремились повторить и развить работу Павлова. Американский психолог Б. Ф. Скиннер, например, узнал о Павлове из рецензии на книгу известного писателя-фантаста Г. Г. Уэллса. Чтение этой статьи пробудило интерес Скиннера к психологии и направило его на путь становления ведущей фигурой бихевиористского движения, проведя бесчисленное количество точных исследований поведения крыс, голубей и людей.1
Когда в какой-либо области науки накапливается достаточно количественных данных, она в конце концов обращается к математическому моделированию, чтобы придать им смысл. Модели находят структуру в грудах цифр; они могут объединить разрозненные результаты и показать, как они возникают в результате единого процесса. В течение десятилетий после Павлова количество данных, получаемых в ходе поведенческих экспериментов по обучению, сделало их готовыми для моделирования. Как писал в 1950 году Уильям Эстес, выдающийся американский психолог, работавший над математикой обучения, данные по обучению "достаточно упорядочены и воспроизводимы, чтобы поддерживать точные количественные предсказания поведения".
В другой работе, опубликованной в 1951 году, говорится: "Среди отраслей психологии немногие так богаты количеством и разнообразием доступных данных, необходимых для построения моделей, как обучение". Эта работа, "Математическая модель простого обучения", была написана Робертом Бушем и Фредериком Мостеллером в Лаборатории социальных отношений Гарвардского университета. Буш был физиком, ставшим психологом, а Мостеллер - статистиком. Вместе, под влиянием работ Эстеса, они вывели формулу обучения ассоциациям между сигналами и вознаграждением, которая стала отправной точкой для целого ряда все более сложных моделей. В течение десятилетий обучение, которое отражают эти модели, стало известно как "обучение под креплением". Обучение с подкреплением - это объяснение того, как возникает сложное поведение, когда единственными сигналами обучения являются простые вознаграждения и наказания. Это, во многом, искусство учиться делать то, что нужно, без подсказок.
* * *
В своей модели Буш и Мостеллер сосредоточились на конкретной мере выученной ассоциации между сигналом и вознаграждением: вероятности реакции. Для собак Павлова это вероятность слюноотделения в ответ на звуковой сигнал. Буш и Мостеллер использовали простое уравнение, чтобы объяснить, как эта вероятность меняется каждый раз, когда награда дается - или не дается - после сигнала.
Допустим, вы берете любую случайную собаку с улицы (ходят слухи, что Павлов получал своих подопытных, воруя их на улицах). Вероятность того, что эта собака пустит слюну при звуке зуммера, равна нулю; у нее нет причин подозревать, что зуммер означает еду. Теперь вы нажимаете на зуммер, а затем даете собаке кусок мяса. Согласно модели Буша-Мостеллера, после этой встречи вероятность того, что собака пустит слюну в ответ на зуммер, возрастает (см. рис. 24). Точная величина этого увеличения зависит от параметра в формуле, называемого скоростью обучения. Скорость обучения контролирует скорость всего процесса. Если скорость обучения очень высока, одной пары может быть достаточно, чтобы закрепить в сознании собаки связь между звуковым сигналом и едой. Однако при более разумных показателях вероятность появления слюноотделения остается низкой после первого сопряжения - возможно, она достигает 10 процентов - и повышается каждый раз, когда за звуковым сигналом следует пища.
Однако независимо от значения скорости обучения, когда во второй раз после звукового сигнала подается пища, вероятность появления слюноотделения возрастает меньше, чем в первый раз. Так, если после первой пары она увеличилась с 0 до 10 процентов, то после второй пары она увеличится еще на девять процентных пунктов, до 19 процентов. И только на восемь процентных пунктов после третьего. Это говорит о том, что в модели Буша-Мостеллера (и в модели собак) изменение вероятности при каждом спаривании зависит от значения самой вероятности. Другими словами, обучение зависит от того, что уже усвоено.
С определенной точки зрения это интуитивно понятно. Нет ничего нового в том, чтобы каждый день видеть восход солнца. В той степени, в какой мы верим, что что-то произойдет, его фактическое наступление мало на нас влияет. Ожидаемое вознаграждение ничем не отличается от этого. Например, мы не изменим своего мнения о начальнике, если получим ту же самую премию к празднику, которую получали последние пять лет. А собаки меняют свою реакцию на звуковой сигнал только в той степени, в какой последующая еда отличается от того, что они