По всем этим причинам исследователи машинного обучения отказались от нейронных сетей. Они предпочли им SVM (англ. Support Vector Machine, метод опорных векторов) и «ядерные методы». По иронии судьбы эти методы тоже были изобретены коллегами и друзьями из нашей лаборатории: Изабелем Гайон, Владимиром Вапником и Бернхардом Бозером в период с 1992 по 1995 г. С 1995 по 2010 г. ядерные методы стали «флагманом» машинного обучения. Сообщество проявило интерес и к другому набору методов – «усилению», разработанному Робом Шапиро и Йоавом Фройндом, коллегами из другого отдела Bell Labs. Мы все были хорошими друзьями. Та ситуация дала нам представление об интеллектуальных разногласиях в стенах нашей компании. Таким образом, в области нейронных сетей снова настал кризис, который продлился почти 15 лет.
В 1995 г. Ларри Джекель все еще верил в будущее сверточных сетей и был разочарован тем, что им предпочли SVM. Владимир Вапник – математик. Ему нравились методы, работу которых можно было гарантировать с помощью математических теорем. Нейронные сети ему не нравились, потому что они были слишком сложными, чтобы их можно было объяснить хорошей теорией. Поэтому Ларри решил заключить с математиком пари.
Во-первых, Ларри поставил на то, что до 14 марта 2000 г. появится математическая теория, объясняющая, почему нейронные сети могут хорошо работать. Вапник сделал ставку на обратное… согласившись на одно условие: если человеком, разработавшим теорию, окажется сам Вапник, то он выигрывает пари. Лучшего способа заставить Владимира заняться этой теорией Ларри не смог бы и придумать!
Во-вторых, Вапник поставил на то, что после 14 марта 2000 г. никто уже не будет использовать нейронные сети. Ларри ставил на противоположное. Они подписали свои прогнозы, и я тоже подписал их, так как выступал свидетелем. Ставкой обоих пари был ужин в ресторане.
Было два ужина. Ларри проиграл первое пари, но второе проиграл Владимир. Что касается меня, то я дважды насладился бесплатным ужином!
В 2001 г. Леон Ботту и я завершили проект DjVu. Более пяти лет мы почти не работали над машинным обучением, но мы писали длинные статьи, в которых подробно рассказывали о нашей работе в первой половине года десятилетия. Для меня те статьи представляли собой своего рода бесконечную «лебединую песнь»: сообщество больше не интересовалось нейронными сетями, но мы рассказывали им, как заставить эти сети работать. Мы провели новое тестирование, которое должно было стать познавательным и исчерпывающим. В 1998 г. мы опубликовали статью ЛеКуна, Ботто, Бенгио и Хаффнера[30] в престижном журнале Proceedings of the IEEE под названием «Градиентное обучение для распознавания документов», ставшую впоследствии знаменитой.
В той статье было подробное объяснение того, как заставить работать сверточные сети. Мы развили идею построения обучающей системы путем сборки дифференцируемых параметризованных модулей. Также мы описали новый метод – «преобразование графов сетей», позволяющий обучать системы, модули которых управляют графами, в то время как классические нейронные сети управляют только массивами чисел. Мы также продемонстрировали, как можно построить и обучить систему распознавать символы. В период с 1998 по 2008 г. статья имела переменный успех, набирая лишь несколько десятков цитирований в год. Но с 2013 г. ситуация резко изменилась. В 2018 г. статья собрала 5400 ссылок. Многие видят в ней сейчас основополагающую статью по теории сверточных сетей, хотя первые статьи были опубликованы десятью годами ранее. В 2019 г. моя статья собрала 20000 цитирований.
Рис. 2.4. Пари 1995 г. между Ларри Джекелем и Владимиром Вапником
1. Джекель делает ставку (ставка – хороший обед), что не позднее 14 марта 2000 г. исследователи поймут, почему большая сеть нейронов, обученных на большой базе данных, работает хорошо (под «пониманием», мы подразумеваем то, что будут четкие условия и ограничения). Но, если решение найдет Вапник, он все равно выиграет. Вапник ставит на то, что Джекель ошибается.
2. Вапник делает ставку (хороший обед в ресторане), что не позднее 14 марта 2005 г. ни один здравомыслящий человек не будет использовать нейронные сети, которые, по сути, останутся такими же, как в 1995 г. Джекель делает ставку, что Вапник не прав. Вапник выиграл первое пари, а Джекель выиграл второе.
30
Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner, «Gradientbased learning applied to document recognition», Proceedings of the IEEE, 1998, 86 (11), p. 2278–2324.