Тем временем, пока я привыкал к жизни без вызова ImageNet, сомнения, которые я отказывался признавать в течение многих лет, стали реальнее, чем когда-либо. Неужели скептики были правы? Действительно ли все это было пустой тратой времени? ImageNet был не просто набором данных или даже иерархией визуальных категорий. Это была гипотеза - ставка, вдохновленная нашим собственным биологическим происхождением, - что первым шагом к раскрытию истинного машинного интеллекта станет погружение в полноту визуального мира. Что опыт, соизмеримый с хаосом и сложностью, которые сформировали нашу собственную эволюцию, может оказать аналогичное воздействие на наши алгоритмы. И я был готов к тому, что эта ставка окажется верной, равно как и к тому, что она окажется неверной. В любом случае это будет возможность чему-то научиться. Но я не ожидал, что это будет проигнорировано.
Что я упустил?
Глава 8. Эксперименты
В Киото наступила осень. Полдень был ярким и служил прочным фоном для пульсирующих вспышек зеленого, оранжевого и красного цветов, проносящихся мимо, как живой портрет в окнах поезда-пули. Даже на скорости двести миль в час сельская местность была пышной и великолепной, но, как это часто случалось в моей жизни, я был слишком отвлечен, чтобы оценить ее по достоинству. Это было долгое, утомительное путешествие со всеми сопутствующими тревогами, и месяцы, прошедшие после разочаровывающего дебюта ImageNet на третьем уровне на CVPR, были обескураживающими. Наши критики оставались пренебрежительными, а интерес со стороны других исследовательских лабораторий был скудным. Сползание ImageNet к безвестности стало казаться настолько неизбежным, что я прибег к импровизированному университетскому турне, чтобы противостоять этому, выступая с живыми презентациями везде, где только мог, в аудиториях, заполненных скептически настроенными аспирантами и постдоками. Это было не так уж много, но даже отсрочка неизбежного казалась маленькой победой.
Теперь появилась следующая возможность повысить нашу значимость: Международная конференция по компьютерному зрению, или ICCV, в Киото. Моим попутчиком на этот день был Алекс Берг, доцент университета SUNY Stony Brook и единомышленник в области компьютерного зрения. Алекс был особенно талантливым аспирантом у Джитендры, исследуя проблемы распознавания объектов в духе, схожем с моей работой с Пьетро, а использование им Caltech 101 в своей докторской диссертации сделало его не только естественным ценителем силы наборов данных, но и одним из немногих сторонников ImageNet. Хотя было приятно пообщаться с единомышленником, это лишь подчеркнуло, насколько сложным будет предстоящий путь.
Все это контрастировало с тем волнением, которое мы испытывали в моей лаборатории, недавно переехавшей в Стэнфорд. У нас под рукой был не просто набор данных, а испытательный стенд, на котором наши идеи столкнулись лицом к лицу со всем визуальным миром - наши алгоритмы получили более широкие возможности восприятия, чем они имели раньше, и были проверены с большей строгостью, чем они когда-либо сталкивались. Если наборы данных изображений можно рассматривать как язык исследования компьютерного зрения - набор концепций, которые алгоритм и его разработчики могут изучать, то ImageNet стал внезапным, взрывным ростом нашего словарного запаса.
Все, что мы делали в лаборатории, было наполнено энергией. В одном случае мы использовали ImageNet для быстрого обучения сотен экземпляров алгоритма классификации изображений для распознавания коллекции повседневных вещей, а затем запустили их одновременно на одной фотографии. Вместо того чтобы просто определять наличие отдельных предметов, в эксперименте искали комбинации объектов, которые что-то говорили обо всей сцене. Например, если детекторы замечали человека, лодку, весло и воду, они классифицировали фотографию в целом как изображение "гребли" - более глубокий уровень понимания, который, возможно, граничит с примитивным видом визуального мышления.
Как и во многих других экспериментах той эпохи, точность используемых нами алгоритмов была нестабильной, и многое еще предстояло сделать - ведь даже простое распознавание изображений еще только зарождалось, - но эти неровности только усиливали дух приключений, охвативший нас. Наша работа казалась смелой и перспективной, нерафинированной, но провокационной. Многое в ней было концептуально простым. Но только после появления ImageNet это стало возможным.
Тем временем Цзя вступал в свои права как ученый. Через год или около того после выхода ImageNet он опубликовал работу под названием "Что нам говорит классификация более 10 000 категорий изображений?", в которой он размышлял о том, как фундаментально меняется распознавание изображений в присутствии ImageNet. Несмотря на то, что это была в основном техническая работа, в ней присутствовал философский подтекст, который отличал ее от типичной академической статьи. В ней чувствовалось пророчество, даже экзистенциальность. Его тезис заключался в том, что ImageNet представляет собой не просто увеличение масштаба, а категориальный сдвиг - то, что физики могли бы назвать "фазовым переходом", при котором меняются даже самые основные свойства явления. Он значительно расширяет диапазон возможностей, с которыми могут столкнуться наши алгоритмы, и ставит перед ними задачи, которые не решали меньшие наборы данных.