Остальные исследователи считали исследования нейронных сетей глупостью, а мы, между тем, придумали новое название: глубокое обучение. Я назвал наше трио «заговором глубокого обучения». Шутка, но не совсем.
Нам не давали возможности публиковаться. Почти все статьи, которые мы опубликовали по этой теме в 2004–2006 гг., были отклонены на крупных конференциях по машинному обучению, NIPS (англ. Neural Information Processing Systems, системы обработки нейронной информации)[33], ICML (англ. International Conference on Machine Learning, Международная конференция по машинному обучению). В то время машинное обучение в основном было связано с «ядрами», «усилением» и байесовскими вероятностными методами. Нейронные сети к этой области не относились. Конференции по прикладным областям, такие как CVPR (Конференция по компьютерному зрению и распознаванию образов; см. выше) и ICCV (англ. International Conference on Computer Vision, Международная конференция по компьютерному зрению), тоже относились к нейронным сетям прохладно.
Нам оставалось только верить! Но иногда веры становится недостаточно. Я помню, как 6 декабря 1987 г. Джеффри Хинтон пришел в лабораторию в состоянии полной депрессии. Он был угрюм, что не было на него похоже. У Джеффри вообще было хорошее чувство юмора, как у любого уважающего себя англичанина. Но в тот день ему было не до шуток. Коллег, заходивших к нему в кабинет, ждал сухой формальный прием. В конце концов Джеффри признался, что ему тяжело: «Сегодня мне 40 лет, моя карьера окончена. Я больше ничего не достигну». Сорок лет – это рубеж, за которым, по его мнению, ум начинает работать медленнее. Он был уверен, что больше ничего не узнает о том, как работает мозг. Двадцать лет спустя у нас появились новые идеи, но они так и не получили огласку.
Но постепенно, благодаря программе CIFAR, круг наших единомышленников расширился. С 2006 г. он достиг критического размера, в связи с чем наши статьи, представленные на конференциях, стали читать многие эксперты, объединенные тематикой этих исследований. О наших идеях заговорили, а нас самих стали узнавать.
В 2007 г. на конференции NIPS к нам в очередной раз отнеслись пренебрежительно, а между тем в 2018 г. там собрались 9000 участников. Джеффри Хинтон, Йошуа Бенджио и я посещали эту конференцию каждый год, потому что именно там происходят самые интересные обмены идеями о машинном обучении. Неделя встреч, три дня пленарных заседаний и два дня семинаров, где все могли свободно высказывать свои мнения.
Конференция и семинары проходили в то время на зимнем спортивном курорте недалеко от Ванкувера. Участники приехали туда в четверг днем на автобусе. Мы хотели провести там семинар по глубокому обучению, но организаторы без объяснения причин отказали нам. Ну и ладно! На деньги CIFAR мы организовали нашу «пиратскую» встречу и арендовали собственные автобусы для перевозки участников. Наш семинар посетили 300 участников, это был настоящий рекорд! Наш мастер-класс стал самым популярным мероприятием NIPS в том году! Эта история способствовала принятию термина «глубокое обучение» в специальной литературе.
Эффективность сверточных сетей подтвердилась
С методологической точки зрения, некоторые читатели, незнакомые с глубоким обучением, могут перейти к прочтению следующих глав, прежде чем продолжить эту, так как здесь мы ссылаемся на основные понятия, которые будут подробно разобраны позже.
В период с 2003 по 2013 г. моя лаборатория в Нью-Йоркском университете расширила область применения сверточных сетей. В 2003 г. мы добились распознавания простых объектов независимо от ориентации и освещения, а также распознавания лиц (см. рисунки 2.7 и 2.8)[34]. Впрочем, первую свою систему распознавания лиц я создал еще в 1991 г. во время шестимесячного нахождения в центральной лаборатории Thomson-CSF в Палезо. Эта работа была опубликована в 1993 г., но была проигнорирована сообществом.
Рис. 2.7. Распознание лиц с помощью сверточной сети
Изображение слева является результатом применения первой сверточной сети для распознания объектов на изображениях, созданных в 1991–1992 гг. Статьи об этом впервые вышли в 1993 и 1994 гг. Справа: высокопроизводительная система, разработанная в NEC в 2003–2004 гг. Такая система могла распознать необычные лица, например, пришельцев из «Звездного пути», а также оценивать выражение лица.
33
Для справки, в 2018 г. NIPS поменяло свое название. Теперь она называется NeurIPS под тем предлогом, что NIPS имеет сексистский оттенок (nips на английском языке – уменьшительное от nipples, которое переводится с французского как «соски»). Раньше об этом никто не думал! Теперь же внимание научного сообщества обратило на это одно из ответвлений #MeeToo – глобального движения, зародившегося в октябре 2017 г. в Соединенных Штатах, которое осуждает сексуальное и гендерное насилие, чьими жертвами становятся женщины.