Читать онлайн "Миры, которые я вижу. Любопытство, исследования и открытия на заре ИИ [The Worlds I See]" - Li Fei-Fei - RuLit

Голод охватил эту область, поскольку возникло желание добиться большего. Больше слоев, чтобы сделать нейронные сети глубже и мощнее. Больше кремния, чтобы ускорить процесс обучения и сделать возможным развертывание все более крупных сетей. И, конечно, больше данных. Больше изображений, больше видео, больше аудио, больше текста и всего остального, что сеть может научиться понимать. Больше всего.

Было интересно думать о возможностях, которые могут открыть эти новые организованные данные, но в то же время и страшно; в моей лаборатории мы уже убедились, что в материале всегда скрыто больше, чем мы думали. Это никогда не были просто изображения, или аудио, или текст - данные позволяли модели формировать представление о мире, а большие данные означали более мощные и нюансированные представления. Отношения, связи и идеи. Истины и неправды. Проницательность и предрассудки. Новое понимание, но и новые подводные камни. Революция глубокого обучения уже наступила, и никто из нас не был к ней готов.

Тем временем исследовательская программа нашей лаборатории проявляла собственную прожорливость: сколько бы мы ни достигли, каждая новая публикация, казалось, порождала десять последующих идей, которые кто-то, будь то постдок или аспирант первого года обучения, был готов подхватить и воплотить в жизнь. Именно это мне и нравилось, даже если часто это казалось чрезмерным.

Я подумал, что истинная ценность Полярной звезды как метафоры заключается не только в ее способности указывать путь, но и в том, что ее расстояние остается вечно бесконечным. К ней можно стремиться до изнеможения, она может стать объектом одержимости всей жизни, но так и не быть достигнутой. Это символ самой характерной черты ученого: любопытство настолько неугомонно, что навсегда отталкивает удовлетворение, как противоположные магниты. Звезда в ночи, мираж вдали, дорога без конца. Я понял, что именно таким для меня становится ИИ. ImageNet стал поворотным моментом, который, безусловно, стоит отпраздновать, но это был не конец пути. Скорее, это было начало еще более грандиозного путешествия. И помимо этого, я теперь был уверен, меня ждало больше, чем может вместить карьера и даже жизнь.

Получив в свое распоряжение пригодную для публикации демонстрацию нашей техники создания подписей к изображениям, мы с Андреем провели следующие несколько недель, совершенствуя наши методы и документируя результаты. Результат нашего гамбита оправдал все мои надежды: хотя предложения все еще оставались простыми и немногословными, они были точными и достаточно естественными в своей формулировке. Это действительно был, по словам Джереми Вулфа, алгоритм, который улавливал "суть" того, что видел.

Пришло время поделиться ею с миром. В конечном итоге это означало академическую аудиторию, и наша работа была принята к участию в конференции 2014 года по системам обработки нейронной информации, или NeurIPS, до которой оставалось несколько недель. Тем временем меня пригласили выступить с лекцией на семинаре IBM в Аламеде, на другом берегу залива, и я не смог удержаться, чтобы не рассказать о том, чего мы добились раньше срока.

Обмен неопубликованными работами был нестандартным шагом, но телефонный звонок, который я получил сразу после этого, подтвердил, что он был правильным. Он поступил от Джона Маркоффа, технологического репортера The New York Times, когда я все еще находился на заднем сиденье своего Uber, направлявшегося в Стэнфорд. Я давно питал симпатию к Джону, поскольку он был одним из немногих представителей СМИ, кто оценил важность ImageNet на ранних этапах ее развития, освещая ее в Times несколькими годами ранее. Тем не менее, импровизированный звонок был необычным.

"Джон? Привет! Как дела?"

"Хорошо, хорошо. Угадайте, кто был в аудитории IBM сегодня утром?"

Ха. Мне и в голову не приходило, что здесь может присутствовать журналист. Я почувствовал, что происходит что-то странное.

"Этот ваш алгоритм - тот, который генерирует предложения для описания изображений, - вы сказали, что он еще не опубликован, верно?"

"Именно так. Но мы представим его официально на выставке NeurIPS в декабре".

"Приятно слышать", - уклончиво ответил Джон, прежде чем перейти к делу. "Послушайте, я хотел сообщить вам, что у меня в руках есть материал - разумеется, под эмбарго - о другой исследовательской группе. Я не могу сказать, кто это, но они утверждают, что создали первый алгоритм, который... ну, - он неловко рассмеялся, - "генерирует предложения, описывающие изображения".