Выбрать главу

"... Да?" осторожно ответила я.

"Прекрасно, что мы наконец-то встретились! Я Джитендра".

"Джитен... О! Джитендра... Малик? Ты..."

"Полагаю, вы знаете меня как бывшего советника Пьетро, да, - сказал он со смехом. "Он попросил меня составить вам компанию. Вы же не думали, что мы позволим вам сделать это в одиночку, не так ли?"

Хотя я знал имя Джитендры и, конечно, его репутацию, мы впервые встретились лицом к лицу. Я склонен рассматривать академические отношения в семейных терминах, поэтому я считал его - советника моего советника - своим "академическим дедушкой". Он вполне соответствовал этому названию, его присутствие было одновременно успокаивающим и ободряющим. После моего доклада, когда на меня набросилась толпа исследователей, жаждущих узнать больше, он стал для меня спасением. Простое присутствие его рядом со мной превратило подавляющий день в нечто управляемое и положило начало тому, что переросло в прочную связь.

Несмотря на шквал разговоров после моего выступления, мне пришло в голову нечто неуловимое: каждый вопрос, который мне задавали, касался самого алгоритма. Как вы составили байесовские уравнения для оценки апостериорной вероятности? Как вы оценили предварительное распределение изображений? Вы упомянули об использовании недавно предложенного алгоритма вариативного вывода для оптимизации параметров модели - можете ли вы рассказать об этом подробнее? Какие у вас планы по его расширению в будущих модификациях? Как он может работать в других условиях?

Нас снова и снова спрашивали о математическом ядре выбранного нами алгоритма машинного обучения - вероятностной технике, называемой "байесовской сетью", - но ни разу не спросили о данных, на которых мы его обучали. И хотя в этом не было ничего необычного - данные не так уж и незаметно были отброшены как инертный товар, имеющий значение лишь в той степени, в какой это требуется алгоритмам, - я начал понимать, что мы недооценили нечто важное.

Определяющая особенность нашего алгоритма - его способность узнавать новые категории объектов всего за одну экспозицию - в значительной степени зависела от данных. В конечном счете, именно разнообразие других объектов, которые видел наш алгоритм, дало ему своего рода перцептивный опыт и позволило так хорошо работать, когда ему было представлено что-то новое.

На самом деле, чем больше я думал об этом, тем больше удивлялся, почему эта тема - тонкая, но интригующая сила данных - не привлекает никакого внимания. В конце концов, мы добились довольно удивительных результатов при абсолютном отсутствии данных - несколько сотен изображений, распределенных по нескольким случайно выбранным категориям. В связи с этим возник вопрос, который казался все более провокационным каждый раз, когда я возвращался к нему: если так мало данных позволило создать столь мощные возможности, то что может дать больше данных?

Как насчет большего?

 

"Почти готово... Секундочку..." Очередной обед в кафе "Красная дверь", очередная трата нескольких совершенно замечательных минут времени, пока Пьетро расставлял наши тарелки, превращая их в очередную серию коллажей Хокни. "Вот!"

"Ага. Очень мило", - сказал я. Я больше не притворялся, что смотрю.

Пьетро улыбнулся своей работе, явно уловив мое нетерпение и явно не обеспокоившись им. Я забрала у него свой поднос и принялась за еду.

"Я все время думаю о нашей одноразовой учебной работе", - сказал он, меняя тему. "Я горжусь тем, чего мы добились, но мы оба знаем, что настоящая звезда шоу - это данные".

Я кивнул, продолжая жевать.

"А что, если мы создадим совершенно новый набор данных? Больший. Думаю, мы могли бы сделать все сами, с нуля".

Я продолжала кивать.

"Что, если все эти новые данные - сами по себе - являются ключом к достижению следующего уровня?"

Это была дерзкая идея, и в то же время достаточно затянутая, чтобы все было интересно.

"Итак, начнем с самого очевидного вопроса: сколько категорий изображений должен включать наш новый набор данных?"

Я отложил вилку и на мгновение задумался над вопросом. Зная, что самая большая коллекция, когда-либо собранная в Калтехе, предлагает семь довольно случайно выбранных категорий, округление казалось разумным началом.

"Как насчет... десяти?" предложил я.

Пьетро нахмурил брови.

"Это было бы улучшением, я полагаю, но я задаюсь вопросом, не слишком ли мы прогрессируем".

Мне нравился дух его предложения, но я не мог не учитывать и реальность. Зная, что вся работа по сбору, маркировке, и систематизации изображений ляжет на меня, я делал все возможное, чтобы сбалансировать потребности нашего исследования с практическими заботами повседневной жизни.