Однако машина выбирает наборы признаков в предпоследних слоях нейросетей не сама, а потому что мы ее об этом попросили. Она может дистанционно отвечать на вопросы, но не задавать их.
Ученые и разработчики прикладывают большие усилия с тем, чтобы понять, как мотивировать машину мыслить. Последним трендом в глубоком обучении стали исследования природы человеческого восприятия с тем, чтобы понять, как оно отличается от восприятия нейросетей.
Самым простым ответом на вопрос о мотивации было дать машине за правильное действие какую-то награду. Сделать так, чтобы она нуждалась в поощрении на структурном уровне, а дальше пусть борется за приз. В случае с глубоким обучением с подкреплением это означало поощрять действия нейросети, ведущие ее к награде, и чтобы она избегала действий, которые от этой награды ее отдаляют.
Поэтому именно на метод глубокого машинного обучения с подкреплением и на GANs (генеративно-состязательные сети) некоторые ученые сделали свою ставку, надеясь на то, что именно так удастся создать сильный ИИ.
При этом механизмы, в том числе обучения с подкреплением, взяли у биологического мозга.
В 1954 году канадские ученые Джеймс Олдс и Питер Милнер обнаружили центры наслаждения у крыс. Имплантировав электроды в определенную часть мозга животного, они приучили крысу нажимать рычаг, после чего через электроды проходил низковольтный разряд электричества и вызывал удовольствие. Когда крысы научились стимулировать центр наслаждения, они словно сходили с ума и нажимали рычаг до полной потери сил.
Нервные импульсы в этом участке передаются в основном посредством нейромедиатора дофамина, который вырабатывается в мозге. Дофамин является биохимическим предшественником адреналина и вырабатывается естественным образом во время положительного опыта не только у крыс, но и у человека. Прием вкусной пищи, секс и другие приятные телесные ощущения —все это приводит к выработке дофамина. Эксперименты показали, что даже воспоминания об ощущении могут увеличить уровень дофамина —значит, нейроны запоминают связь и подкрепляют этим гормоном свое воспоминание.
Одно время думали, что дофамин вырабатывается лишь непосредственно в процессе получения удовольствия, но все оказалось сложнее и интереснее.
В 1997 году в эксперименте Шульца у обезьяны создавали условный рефлекс по схеме Павлова: после включения лампочки в рот животному поступал сок. При этом у нее измеряли уровень активности нейронов, вызванный поступлением дофамина. Было обнаружено, что дофамин вырабатывался сначала в ответ на поступление сока, а после формирования условного рефлекса в ответ на подачу светового сигнала, до момента впрыскивания сока. Если обезьяна, предупрежденная лампочкой, ждала сок и его не получала, активность дофаминовых нейронов снижалась. Получалось, дофамин участвует в формировании и закреплении условных рефлексов с подкреплением. То есть, вырабатывая дофамин, мозг давал обезьяне знать, что её мечта о соке сбылась. Но просто сок без мечты такого удовольствия уже не приносил.
Дофамин используется мозгом человека как раз для оценки действий и мотивации, закрепляя через удовольствие действия, например, направленные на продолжение рода. При помощи дофамина формируется и чувство любви — это было показано в блестящей серии экспериментов на серых полёвках. Этот вид мышей вырабатывает чувство супружеской верности. Судя по художественной литературе, человек тоже порой формирует аналогичное чувство привязанности.
Активация дофаминных нейронов происходит и при очень важном процессе переключения внимания человека от одного этапа когнитивной деятельности к другой. Это важнейшее свойство человека, и если каким-то образом удастся его воспроизвести, это будет гигантским шагом вперед на пути разработки сильного ИИ.
Немецкие нейробиологи Кляйн и другие показали в 2007 году в ходе эксперимента на людях, что дофамин дает возможность эффективно учиться на своих ошибках, а его нехватка может привести к игнорированию негативного опыта. Проще говоря, если какой-нибудь куратор выставки современного искусства хочет, чтобы посетители пришли на его выставку во второй или третий раз, ему нужно перекрыть у них дофаминовый кран, то есть сделать так, чтобы они в принципе не получали удовольствия от искусства.
Хм, похоже, кураторы так и делают.
Вы уже догадались, что дофамин — довольно опасная субстанция в неумелых руках. Если ее вырабатывать не путем обучения с подкреплением, а при помощи искусственных стимуляторов, то мозг привыкнет к повышенному уровню дофамина и начнет меньше его вырабатывать. Человек будет нуждаться в повышении дозы, и мозг начнет разрушаться.