Выбрать главу

В 2003–2004 гг. лаборатория добилась значительного успеха с новым проектом, названным DAVE (рис. 2.9). Мы создали маленький грузовик-робот, оснащенный двумя камерами, который самостоятельно передвигался на местности. Конечно, сначала нужно было его обучить. Человек-пилот управлял им в течение часа или двух в разных локациях: в парках, садах, лесах. Система записывала как изображения двух камер, так и положение рулевого колеса. Затем сверточная сеть обучалась предсказывать угол поворота рулевого колеса на основе входных изображений, чтобы робот вел себя как человек-пилот, который поворачивает рулевое колесо, чтобы объехать возникшее препятствие. После этапа обучения, который длится несколько дней на компьютере, система смогла управлять роботом.

Эта демонстрация силы имитационного обучения, впрочем, не сумела удивить исследовательское сообщество. Статья оставалась не принятой к публикации до 2006 г. С другой стороны, она заинтересовала представителей Управления перспективных исследовательских проектов Министерства обороны США (Defense Advanced Research Projects Agency, DARPA) и побудила их начать проект LAGR (Learning Applied to Ground Vehicles, т. е. прикладное обучение наземных роботов), обширную исследовательскую программу по применению машинного обучения к пилотированию мобильных роботов, которая длилась с 2005 по 2009 г. Мы вернемся к этой теме в Главе 6. Результаты этой работы послужили источником вдохновения для ряда проектов по созданию беспилотных автомобилей.

Рис. 2.8. Распознавание объектов независимо от положения и ориентации

Сверточная сеть обучается на изображениях игрушек, относящихся к пяти категориям: человек, животное, самолет, легковой автомобиль и грузовик. Но оказалось, что она может распознавать реальные объекты на естественных изображениях, которые отличаются от игрушек.

Рис. 2.9. Робот DAVE (2003)

Эта небольшая радиоуправляемая машина оснащена двумя камерами. Сверточная сеть (справа), обученная имитировать действия человека-пилота, позволяет ему управлять своим движением автономно, избегая препятствий. Вход в сеть состоит из изображений с двух камер (вверху). Выходные данные сети – это угол поворота рулевого колеса (изображен четкой световой полосой под изображениями справа). Миниатюры представляют активацию единиц в последовательных слоях сети.

Вернемся в 2005 г., один из наших самых успешных в Нью-Йоркском университете. Мы продемонстрировали, что сверточные сети можно использовать для семантической сегментации, то есть для маркировки каждого пикселя изображения определенной категорией объекта, к которому относится пиксель. Мы применяли этот метод для анализа биологических изображений, полученных с помощью микроскопии (рис. 2.10). В будущем этот метод оказался очень полезным для управления роботами и автомобилями, так как позволяет помечать каждый пиксель изображения как доступную для проезда область или как препятствие.

Мы также обучали сверточную сеть сравнению изображений. Для этого мы применили «метрическое обучение», основанное на идее «сиамских сетей», которую я предложил еще в 1994 г. для проверки подлинности подписи. Оно позволяла определять, являются ли два портрета фотографиями одного и того же человека или двух разных людей. Позже эта идея была реализована в системах распознавания лиц[35].

В 2007 г. мы взяли курс на распознавание объектов на естественных изображениях. До сих пор мы работали только с изображениями игрушек, теперь же нам нужно было обрабатывать обычные фотографии и распознавать на них основной объект.

Рис. 2.10. Сверточная сеть для семантической сегментации биологических изображений

Каждый пиксель входного изображения идентифицируется как принадлежащий к одной из пяти категорий: ядро клетки, ядерная мембрана, цитоплазма, клеточная мембрана и внешняя среда. (а) – изображение клетки зародыша нематоды показано на входе в сеть. (b, c и d) – последовательные слои сверточной сети извлекают элементы изображения. (e) – результат состоит из пяти миниатюр, по одной для каждой из пяти категорий областей. В каждой выходной миниатюре яркий пиксель указывает, что соответствующий пиксель во входном изображении был распознан как принадлежащий к категории, связанной с миниатюрой.

Рис. 2.11. Семантическая сегментация изображений города

Каждый пиксель помечен сверточной сетью в категории объекта, которому он принадлежит: автомобиль, проезжая часть, тротуар, здание, дерево, небо, пешеход и т. д.

вернуться

35

См. главу 7 «Встраивание контента и измерение сходства».