Меня особенно привлекли две личности: Ларри Джекел, глава отдела Bell Labs (позже мне самому довелось работать в этом отделе) и Джон Денкер – настоящий ковбой из Аризоны: джинсовый костюм, большие бакенбарды, ковбойские сапоги… Этот не очень похожий на ученого человек, только что защитивший диссертацию, был невероятно уверен в себе! Когда на него находило вдохновение, он мог быть чертовски убедителен и изобретательно отстаивал свою точку зрения, причем без агрессии и часто вполне обоснованно. Франсуаза Фогельман говорила мне: «У ребят из Bell Labs огромное преимущество. Когда вы только хотите сделать что-то новое, то выясняется, что это либо уже было сделано в Bell Labs десять лет назад, либо это просто не работает». Черт возьми!
Так вот, я выступал с речью о многослойных сетях, в которых (уже!) никто ничего не понимал. В конце Джон Денкер поднял руку. Я напрягся. Но он просто сказал: «А это имеет место быть! Благодаря тебе я многое понял…» Он сказал это прямо перед всей этой публикой! Он и его руководитель Ларри Джекел меня не забыли. Год спустя они пригласили меня прочитать лекцию в их лаборатории. Еще двумя годами позже я появился на собеседовании, а через три года я стал членом их команды!
В Лез-Уш я встретил и Терри Сейновски, соавтора статьи Джеффри Хинтона о машинах Больцмана. Он появился там уже после моего выступления, но я поймал его во второй половине дня и объяснил свою работу над многоуровневыми сетями. Я подозревал, что ему будет это интересно. Он терпеливо слушал, но ничего не сказал о том, что он и Джеффри Хинтон уже работают над обратным распространением. Джеффри удалось заставить этот алгоритм работать, но еще не все об этом знали – и я тоже.
Самые прекрасные идеи заразительны. Принцип обратного распространения Джеффри позаимствовал у Дэйва Рамелхарта из Калифорнийского университета в Сан-Диего, у которого он несколькими годами ранее проходил стажировку после защиты диссертации. К 1982 г. Дэйв смог разработать и запрограммировать этот метод, но не смог заставить его работать. Он пришел к Джеффри, который ответил: «Он не будет работать из-за проблемы локальных минимумов»[21].
В итоге Дэйв сдался. Но во время работы над машиной Больцмана Джеффри понял, что работать с локальными минимумами не так сложно, как он думал. Поэтому он реализовал метод Дэйва Рамельхарта на языке Lisp на своей Lisp-машине от компании Symbolics. И метод заработал!
Итак, во время нашего обсуждения в Лез-Уш Терри понял, что мой алгоритм HLM очень похож на обратное распространение. Он сам уже работал над применением метода обратного распространения ошибки, который через несколько месяцев стал весьма популярным. Мне он об этом не сказал. Но вернувшись в США, он признался Джеффри: «Во Франции есть ребенок, который работает над тем же, что и мы!»
Весной того же года я написал первую самостоятельную статью (признаться, несколько выпадавшую из канонов научной литературы) о своей разработке. Мне удалось обнародовать ее на конгрессе по когнитивным исследованиям в июне 1985 г., первом конгрессе во Франции, объединяющем ИИ, нейронные сети, когнитивные науки и нейробиологию. Джеффри Хинтон был главным спикером. Он прочитал вводную лекцию, в которой рассказал о машинах Больцмана. В конце концов, вокруг него собралась группа из 50 человек. Я хотел подойти к нему, но не было возможности. И тут я увидел, как он поворачивается к Дэниэлу Хэндлеру, одному из организаторов конференции, и услышал, как он спросил: «Вы знаете кого-нибудь по имени Ян Лекун?» Дэниэл оглянулся вокруг. Я закричал: «Я здесь!» Дело было в том, что Джеффри увидел мою статью и попытался ее перевести, хотя французским владел слабо. Тем не менее, он сумел понять, что я – именно тот «ребенок», о котором сказал ему Терри.
Мы с Джеффри встретились на следующий день за обедом. Он объяснил мне принцип обратного распространения. Хотя он знал, что я и так его понимаю! Он сказал мне, что пишет статью и процитирует в ней мою. Я чуть не впал в прострацию. Мы быстро поняли, что наши интересы, наши подходы, наше мышление схожи. Джеффри пригласил меня в летнюю школу коннекционистских моделей в Карнеги-Меллон в следующем году, и я, конечно же, согласился. (Исследователи когнитивных наук предпочитали для обозначения нейронных сетей использовать термин «коннекционистские модели».)
Использование обратного распространения градиента[22]
Изобретения не возникают из ничего. Они являются результатом проб, ошибок, разочарований и дискуссий, и зачастую для их реализации требуется много времени. Таким образом, «рубежи» искусственного интеллекта расширялись благодаря целой серии открытий. Популяризация градиентного обратного распространения в 1980-х гг. позволила обучать многослойные нейронные сети, состоящие из тысяч нейронов, организованных по слоям, с сотнями тысяч соединений. Каждый слой нейронов объединяет, обрабатывает и преобразует информацию из предыдущего слоя и передает результат следующему слою, пока в конечном слое не сформируется ответ. Такая многоуровневая архитектура обеспечивает потрясающую пропускную способность[23] этих многоуровневых сетей. Позже мы поговорим о глубоком обучении.
22
По-русски этот метод сейчас называться обычно «методом обратного распространения ошибки». –
23
Пропускная способность нейронной сети – это среднее арифметическое между объемами обрабатываемой и создаваемой информации нейронной сетью за единицу времени. –