Выбрать главу

К сожалению, базы данных изображений, используемые сообществом компьютерного зрения, были тогда невелики. База данных Caltech-101 содержала около 100 категорий объектов, но только по 30 примеров на категорию. Этого было слишком мало для обучения сверточной сети. На тот момент были предпочтительны более «классические» методы, использующие ручные экстракторы признаков, за которыми следует классификатор на основе SVM. Отсутствие достаточного количества примеров заставило нас сосредоточиться на неконтролируемом обучении. Идея состояла в том, чтобы предварительно обучить слои сверточной сети извлекать общие шаблоны без их привязки к конкретной задаче. В результате этого слой сети создает представление, из которого можно восстановить входные данные слоя. Эта технология называется «автоэнкодер», особенность ее заключается в минимизации количества включенных нейронов. С этой идеей мы изо всех сил пытались достичь производительности, сравнимой с обычными системами, однако нашлось одно приложение, для которого такой метод был особенно полезным: обнаружение пешеходов, необходимое автономным автомобилям. Дело в том, что обнаружение пешеходов было одним из немногих приложений, для которых у нас было достаточно данных. Статья появилась в июне 2013 г., а сами методы актуальны и сегодня. Мы вернемся к ним в главе 9.

После LAGR моя лаборатория приняла участие в проекте глубокого обучения, финансируемом DARPA. Впервые мы столкнулись с тем, что идеально соответствовало нашим интересам! Но это было начало 2009 г., администрация США сменилась, а руководство DARPA все ждало подходящего момента. Финансирование проекта то утверждалось, то откладывалось, а затем сократилось. В самом начале сотрудничества с нашей лабораторией уставший от неопределенности руководитель проекта подал в отставку. Его преемник пытался все остановить. Мы спорили с ним, но добивались успеха, только если работали над второстепенными для нас темами. Мы по-прежнему работали над системой семантической сегментации естественных изображений, которая уже била рекорды по точности и скорости.

Все еще скептически настроенное сообщество исследователей компьютерного зрения отвергло нашу статью на конференции CVPR 2012 г., несмотря на хорошие результаты. Рецензенты, оценивавшие наш текст, не понимали, как сверточные сети, о которых они никогда не слышали, могут работать так хорошо. Все происходящее напомнило мне старый анекдот: «Конечно, это хорошо работает на практике. Но работает ли это в теории?» Рецензенты не видели смысла в обучении сквозной системы технического зрения, имея в руках лишь такую небольшую разработку. Один из них, например, заметил, что если машина все распознает, научное сообщество не поймет проблему компьютерного зрения! К счастью, через несколько месяцев статья была принята на ICML, крупной конференции по машинному обучению.

Тем временем глубокое обучение начали признавать. Стали появляться новые базы данных изображений, размер которых увеличивался, что очень благоприятствовало обучения больших глубоких нейронных сетей.

Примерно в 2010 г. появились и первые результаты глубокого обучения распознаванию речи. Это были еще не сверточные сети, но их появление было не за горами. Тремя наиболее продвинутыми компаниями в этой области стали Google, Microsoft и IBM. У Джеффри Хинтона появилась блестящая идея: летом во время стажировки он послал трех своих докторантов в каждую из этих компаний с инструкциями по замене центрального модуля их системы глубокой нейронной сетью. Попытка оказалась успешной, производительность всюду значительно улучшилась. Менее чем через 18 месяцев сразу три компании внедрили новые системы распознавания речи, основанные на глубоком обучении. Теперь мы говорили с нашим виртуальным компьютерным помощником, и сверточная сеть сразу переводила нашу речь в текст. Прогресс был настолько стремительным, что позволил создавать новые потребительские товары, активируемые речью.

Усовершенствование компьютерного оборудования тоже вносило свой вклад. Развитие графических процессоров (GPU) увеличивало вычислительную мощность компьютеров. В 2006 г. мой друг и бывший коллега по Bell Labs Патрис Симард из Microsoft Research впервые решил провести эксперимент с использованием графических процессоров (GPU) для нейронных сетей. Другие исследователи из Стэнфордского университета, IDSIA[36] (Швейцарского исследовательского института ИИ), Монреаля и Торонто продолжили эту работу. В 2011 г. стало ясно, что будущее принадлежит тем, кто будет обучать большие нейронные сети на графических процессорах. Они должны были стать проводником новой революции глубокого обучения.

вернуться

36

На итальянском языке: Istituto Dalle Molle di Studi sull'Intelligenza Artificiale, IDSIA (Институт исследований в области искусственного интеллекта Далле Молле). Данное заведение находится в Манно, Швейцария. Он был основан в 1988 г. Анджело Далле Молле через фонд, носящий его имя.