Выбрать главу

Таким образом, история обучения с подкреплением - это история успешного междисциплинарного взаимодействия. Она показывает, что психология, инженерия и информатика могут работать вместе, чтобы добиться прогресса в решении сложных проблем. Она демонстрирует, как математика может быть использована для понимания и воспроизведения способности животных и людей учиться у окружающей среды. Эта история и так была бы замечательной, если бы на этом закончилась. Но она на этом не заканчивается.

* * *

Октопамин - это молекула, содержащаяся в нервной системе многих насекомых, моллюсков и червей. Он назван так из-за того, что был обнаружен в слюнных железах осьминога в 1948 году. В мозге пчелы октопамин высвобождается при попадании нектара. В начале 1990-х годов Терри Сейновски, профессор Института Солка в Сан-Диего (Калифорния), и два сотрудника его лаборатории, Рид Монтегю и Питер Даян, задумались об октопамине. В частности, они построили модель - компьютерную симуляцию поведения пчел, - в центре которой находился нейрон в мозге пчелы, выделяющий октопамин. Они предположили, что выбор пчелы, на какие цветы садиться или избегать, можно объяснить с помощью модели обучения Рескорла-Вагнера, а нейронная цепь, включающая октопаминовый нейрон, может быть аппаратным обеспечением, реализующим эту модель. Но пока они решали эту октопаминовую головоломку, команда узнала о другом исследовании, проведенном примерно в 6000 миль от них немецким профессором по имени Вольфрам Шульц, посвященном химическому родственнику октопамина - дофамину.

Возможно, вы знакомы с допамином. В популярной культуре он пользуется определенной репутацией. В бесчисленных новостных статьях его называют "химическим веществом нашего мозга, связанным с удовольствием и вознаграждением" или рассказывают о том, что такие повседневные действия, как поедание кекса, вызывают "всплеск химического вещества допамина, способствующего вознаграждению, в области мозга, где принимаются решения". Его называют "молекулой удовольствия", и нередко под этим мощным названием продаются товары. Поп-звезды называют в его честь альбомы и песни. Дофаминовые диеты" утверждают (без доказательств), что продукты, повышающие уровень дофамина, помогают сохранить стройность. А технологический стартап Dopamine Labs пообещал повысить вовлеченность пользователей в телефонные приложения за счет нейротрансмиттера. Это бедное химическое вещество знаменитостей также очень сильно задело - его называют источником всех зависимостей и дезадаптивных форм поведения. Появились онлайн-сообщества вроде The Dopamine Project, цель которых - обеспечить "лучшую жизнь через осознание дофамина". А некоторые жители Силиконовой долины даже пытались устраивать "дофаминовые голодания", чтобы отдохнуть от постоянного переизбытка стимуляции.

Хотя это правда, что выброс дофамина может сопровождать вознаграждение, это далеко не вся история. В частности, в исследовании Шульца был показан случай, когда нейроны, выделяющие дофамин, молчали, когда получали вознаграждение.

В частности, Шульц обучал обезьян протягивать руку вперед, чтобы получить немного сока. Во время обучения он регистрировал активность группы дофамин-выделяющих нейронов, расположенных в нижней части мозга. Шульц заметил, что в конце обучения - когда животные знали, что получат сок, протянув руку, - эти нейроны вообще никак не реагировали на выдачу вознаграждения в виде сока.

Когда Шульц впервые опубликовал эти результаты, у него не было четкого объяснения, почему дофаминовые нейроны ведут себя именно так, но у членов лаборатории Сейновски оно было. И они обратились к Шульцу, чтобы начать сотрудничество, в ходе которого была бы проверена гипотеза о том, что дофаминовые нейроны кодируют ошибки предсказания, необходимые для обучения по временной разнице. Это стало началом того, что Сейновски назвал "одним из самых захватывающих научных периодов в моей жизни

Даян и Монтегю попытались проанализировать данные Шульца через призму алгоритмов обучения. Они сосредоточились на простейшем эксперименте Шульца, который заключался в том, что в нужном месте включался свет, и если животное тянулось к нему, то через полсекунды подавалась капля сока. Их интересовало, как изменяется реакция дофаминовых нейронов по мере того, как животное усваивает эту ассоциацию. Но их также интересовало особое обстоятельство после обучения: что происходит, когда сок не следует за светом. Если животные усвоили ассоциацию "свет-сок", они должны были знать, что ожидать этого, и если сок не появлялся, это было бы значительной ошибкой предсказания. Отразили ли это дофаминовые нейроны?