Я взволнованно выдохнула. Пока все хорошо.
Далее началась самая сложная часть работы. Поскольку каждый выделенный элемент занимал всего несколько пикселей, алгоритм был разработан таким образом, чтобы объединять их в кластеры, представляющие более крупные части объекта, который он должен был идентифицировать. Другими словами, это прокси для тусклой формы визуального восприятия. Вокруг каждой части были нарисованы цветные круги: синий и тиловый - для разных сегментов фюзеляжа, красный - для вертикального стабилизатора, зеленый - для области, где они встречаются. Конечно, алгоритм расположил их почти точно на своих местах.
Самолет признан.
Это был волнующий момент, но не потому, что он сработал, а потому, как он сработал. Вместо того чтобы погрузить машину в сотни фотографий самолетов, охватывающих как можно больше вариаций цвета, стиля, перспективы и условий освещения, мы показали ей всего одну. Однако мы показывали ей сотни изображений совершенно несвязанных предметов - пятнистых кошек из джунглей, мотоциклов, человеческих лиц, сделанных нашими улыбчивыми товарищами по лаборатории и новой цифровой камерой Пьетро, а также случайные подборки, которые мы загрузили из Google Images. Наша гипотеза заключалась в том, что, ознакомив алгоритм сначала с широким спектром визуального мира, он будет лучше подготовлен к обучению чему-то конкретному. Поэтому, хотя алгоритм был обучен на самых разных вещах, самолет, который он только что распознал, был лишь вторым, который он видел. Эвер.
Наше творение было лишь пробным вариантом, и в нем не обошлось без ошибок. Но наша цель состояла в том, чтобы продемонстрировать, что алгоритмы, как и люди, получают огромную пользу от того, что видят больше визуального мира. Теперь на моем горизонте замаячила Северная звезда, и мы сделали реальный шаг в ее направлении.
Мы назвали эту технику "одномоментным обучением". Это был значительный отход от существующего положения дел в области распознавания изображений, но способность, которая нас вдохновила, хорошо известна. Как люди, мы от природы умеем распознавать вещи даже после одного взгляда на них: новый вид музыкального инструмента, животное, которого мы никогда раньше не видели, лицо недавно избранного политика. Можно привести множество объяснений этой способности, но одним из самых простых и действенных является тот факт, что даже когда мы видим что-то новое, мы используем для этого опыт всей нашей жизни. Независимо от новизны, практически все, что мы видим, настолько сильно опирается на прошлый опыт - знакомые детали, такие как контуры, свет и тень, текстуры и узоры, - что трудно представить, что можно увидеть что-то в полном одиночестве.
Наша техника воплотила эту концепцию в машинах, и оказалось, что она работает. Однако если результаты оказались приятным сюрпризом, то прием, который получила наша статья, был ошеломляющим. Это был своего рода прорывной успех: ее не только приняли на Международную конференцию по компьютерному зрению (ICCV) в Ницце, Франция, но и дали нам одно из немногих мест для устного доклада. Хотя доклад был написан в соавторстве с Пьетро и его коллегой по имени Роб Фергус, я был ведущим. Это означало, что честь и ответственность за поездку лежала на мне.
Выступление на ICCV - редкая возможность, особенно для аспиранта, и отсутствие опыта выступлений перед столь важной аудиторией тяготило меня. Что еще хуже, Пьетро не смог бы поехать со мной. Он и его жена ожидали рождения своего первенца, и дата родов приближалась. Это была моя первая научная конференция и первое выступление на сцене. И я буду выступать один.
Нервы могли бы стать проблемой во время полета в Ниццу, если бы не стоявшая передо мной задача. Мои обязанности в Калтехе держали меня в состоянии безостановочной суеты, и тринадцать спокойных часов на высоте тридцать тысяч футов оказались единственным свободным окном для подготовки доклада, который мне предстояло сделать. Большую часть поездки я не высовывался, составляя конспект и собирая слайды так быстро, как только мог.
Однако по прибытии я остро почувствовал отсутствие Пьетро. Обычно консультанты посещают первую конференцию студента вместе с ним, независимо от того, выступает он с докладом или нет, в знак поддержки и для того, чтобы помочь наладить контакты. До меня начало доходить, что я была предоставлена сама себе в зале, полном сотен незнакомых людей. Если я и собиралась нервничать, то сейчас самое время.
"Фей-Фей?" - раздался голос позади меня. Повернувшись, я увидел незнакомое лицо, смотревшее на меня сверху вниз.