Но в 1985 г. идея, что для многоуровневой сети может появиться процедура обучения, все еще с трудом воспринималась. Физиков интересовала аналогия между полносвязными нейронными сетями («сетями Хопфилда») и спиновыми стеклами. Они видели в них модель ассоциативной памяти в мозге. «Мадленка» Пруста[24] по форме, запаху и вкусу относится к образам и связанным с ними чувствам, то есть к воспоминаниям. Многоуровневые сети работают скорее в режиме восприятия: с помощью каких механизмов можно идентифицировать мадлен только по его форме? Физики не сразу это поняли.
Все изменилось в 1986 г. Терри Сейновски опубликовал технический отчет о NetTalk, многоуровневой сети, основанной на обратном распространении информации, которая «училась» читать вслух. Система транскрибирует английский текст в последовательность фонем (элементарных речевых звуков), передаваемых на синтезатор речи. Легко преобразовать текст в речь на французском языке, но чрезвычайно сложно на английском. В начале обучения система заикалась, как ребенок, который учится говорить, однако со временем ее произношение улучшилось. Терри Сейновски приехал прочитать лекцию в Высшей школе перед обомлевшей аудиторией. Внезапно все захотели со мной пообщаться. Многослойные сети вдруг стали интересными, и я был знатоком в этой области!
Годом раньше я обнаружил, что обратное распространение может быть сформулировано математически с помощью Лагранжева формализма (названного в честь франко-итальянского математика XVIII в. и астронома Жозефа-Луи Лагранжа). Это вид формализма, на котором базировалась классическая механика, квантовая механика и теория «оптимального управления». Я понимал, что метод, аналогичный алгоритму обратного распространения ошибки, уже был предложен теоретиками оптимального управления в начале 1960-х гг. Он известен как алгоритм Келли-Брайсона или «метод помощника», подробно описанный в справочнике Артура Брайсона и Ю-Чи Хо «Applied Optimal Control, Arthur E. Bryson, Yu-Chi Ho, 1975», опубликованном в 1969 г.
Эти исследователи были далеки от идеи об использовании данного метода для машинного обучения или нейронных сетей. Их интересовали планирование и системы управления. Например, как управлять траекторией ракеты, чтобы она попала на точную орбиту и успешно встретилась с другим космическим кораблем, израсходовав при этом как можно меньше топлива. Однако с математической точки зрения эта проблема очень похожа на вопрос о настройке синаптических весов многослойной нейронной сети, чтобы результат последнего слоя стал желаемым.
Позже я узнал, что несколько исследователей очень близко подошли к открытию обратного распространения ошибки. В 1960-х и 1970-х гг. некоторые из них открыли «автоматическое дифференцирование в обратном режиме» – основной блок для расчета градиентов при обратном распространении. Но они использовали его для облегчения численного решения дифференциальных уравнений или оптимизации функций. Об обучении в многослойных сетях тогда никто и не думал. Никто – кроме, возможно, Пола Вербоса, студента из Гарварда, который прошел курсы Ю-Чи Хо и который в своей диссертации 1974 г. предложил использовать для обучения то, что он называл «упорядоченными производными». Много позже он смог испытать свой метод на практике.
Итак, в июле 1986 г. я провел две недели в Питтсбурге в Летней школе коннекционистских моделей в Университете Карнеги-Меллона, куда меня пригласил Джеффри Хинтон. Я сомневался, нужно ли мне лететь в Соединенные Штаты: моя жена была беременна нашим первым ребенком, а роды ожидались через четыре недели после моего возвращения…
Я помню эту поездку и соотношу ее с основанием сообщества исследователей нейронных сетей. Я подружился с Джеффри и Майклом Джорданом, который только защитил диссертацию. Почему только его назвали Майклом – он был франкофилом и говорил по-французски лучше, чем я по-английски! На пикниках в Летней школе он исполнял песни Жоржа Брассенса, аккомпанируя себе на гитаре.
24
«Мадлен» – французское бисквитное печенье небольшого размера. Во французском языке выражение «мадленка Пруста» превратилось в метафору, обозначающую предмет, вкус или запах, вызывающие наплыв воспоминаний. –