А что такое телефонная зависимость, как не результат обучения с подкреплением дофамином? Люди настолько привыкли получать дофамин в награду за сигнал о полученном сообщении, лайке, ответе на комментарий в соцсети, что утро начинают с просмотра обновлений. Организм требует дозу дофамина, и крупные корпорации научились монетизировать нехватку общения и растущую отчужденность людей, называя это «экономикой внимания». На самом деле правильнее было бы называть это «дофаминной экономикой», а нашу эпоху — «дофаминной цивилизацией».
Нейробиологи продолжают изучать механизм круговорота дофамина, где еще много неясного, а разработчики искусственных нейронных сетей уже взяли основные его принципы на вооружение.
Биологический мозг через дофаминовую систему закрепляет связи между нейронами, которые были активны непосредственно до момента получения дозы дофамина. Между нейронами возникает ассоциация, которая может быть закреплена в будущем новыми дозами. Так формируется ассоциативная память. Когда один из этих нейронов будет задействован, ассоциативная память активизируется в ожидании дофамина и посылает сигнал на другой нейрон, после чего, например, активизируются моторные нейроны, которые приводят к сокращению мышц. Так обучение с подкреплением вызывает действие.
Вначале обучать нейросеть с подкреплением пробовали простым методом: за достижение цели сеть получает награду, выходной сигнал, за который получена награда, маркируется, и методом обратного распространения ошибки сеть постепенно обучается давать именно этот сигнал на выходе. Если на выходе получается другой сигнал, значит, действия привели к неудаче, и эта цепь прохождения сигнала впредь подавляется через понижение весов в соответствующих ячейках промежуточных слоев. В общем, создали искусственную нейросеть по принципу дофаминовой системы.
Однако на практике оказалось, что такой подход не работает. Этому давали разные объяснения, например, что полезный сигнал настолько мал, что теряется на фоне шума. Поэтому стандартным методом обратного распространения ошибки сеть не обучается. Награда случается крайне редко, один раз на несколько сотен или даже тысяч шагов обучения, а даже нейросети с долгой краткосрочной памятью в состоянии запомнить даже в очень простых задачах лишь несколько сотен точек истории. Фактически нейросеть при таком обучении должна запоминать единичные случаи, чего она делать не умеет. А вот мозг делает это прекрасно! Роман Льва Толстого весь строится на таких «единичных случаях», которые переворачивают жизнь человека, полностью меняя его сознание.
Сколько раз Пьер Безухов должен ранить Долохова на дуэли, чтобы испытать потрясение и понять, что вся его жизнь бессмысленна и лжива? Один раз. Меж тем, боюсь, нейросеть заставила бы бедного Пьера, будь он искусственным интеллектом, пройти через это испытание тысячу раз — в лучшем случае — чтобы он почувствовал хотя бы намек на желание изменить жизнь.
Ученые пока не знают, что придумать, чтобы обойти эту проблему. Есть метод, при котором удачные ситуации из прошлого заносятся в специальный буфер и подаются на вход сети наравне с новыми ситуациями. Еще пытаются фиксировать пути внутри нейросети, бывшие активными во время удачного случая — чтобы новые случае не стирали их. Но решая одни проблемы, такие подходы рождают новые.
Есть проекты, например, тот же Psychlab гугловской лаборатории DeepMind, которые изучают разницу между когнитивными процессами двух систем, человеческой и машинной. В рамках проекта проводится много экспериментов, в которых принимают участие машина и человек.
В принципе, если вся дофаминная система работает как у людей, так и у крыс, понятно, что на ее воспроизводстве мы вряд ли получим уровень интеллекта больший, чем у крысы. Если учесть, что по производительности искусственная нейросеть сейчас как раз приближается к мозгу крысы, нужно отдавать себе отчет, что именно об интеллекте, сравнимом с интеллектом крыс, мы говорим сегодня как о потолке достижений ИИ в обозримом будущем.
Очевидно, человеческая мотивация работает не только через подкрепление от некоего гормона. Ведь многое человек делает, не получая удовольствия, а, наоборот, преодолевая боль. Нейробиологам стоило бы изучать процессы в мозгу аскетов, подвижников, героев, йогов, чтобы разобраться в этом.