Выбрать главу

Годы в Bell Labs

В Торонто мне уже удалось протестировать свои первые сверточные сети на очень небольшом наборе рукописных чисел, который я создал сам, нарисовав их с помощью компьютерной мыши. Но Bell Labs получила набор из 9298 изображений «настоящих» рукописных чисел, собранный Почтой США (United States Postal Service, USPS), из почтовых индексов на конвертах. Сверточный сетевой модуль в моем программном обеспечении SN уже был готов к использованию. Я решил построить «большую» сверточную сеть с входом 16 × 6 пикселей и четырьмя слоями. Всего в сети было 1256 нейронов, 64 660 соединений и 9760 настраиваемых параметров (в сверточной сети несколько соединений имеют один и тот же параметр). Что это был за монстр! У меня уходило целых три дня, чтобы обучить мой Sun-4 на 7291 обучающих примерах. Но зато потом он делал лишь 5 % ошибок на 2007 тестовых примерах, побив все предыдущие рекорды. Эти результаты были получены менее чем через два месяца после моего приезда. Ларри был очень доволен и назвал мою сеть «LeNet» (как «ЛеКун»). Вскоре нам удалось запустить ее на небольшой «ускорительной карте», которая могла распознавать 30 символов в секунду. Был заметен прогресс, и мы разработали новую сверточную сетевую архитектуру LeNet1 с более чем 4600 единицами и почти 100 000 соединениями. Количество ошибок еще уменьшилось.

Рис. 2.2. Первая сверточная сеть для распознавания рукописных символов

Эту первую сверточную сеть я создал, когда начал работать в Bell Labs в конце 1988 г. Перед вами нейронная сеть, архитектура которой, вдохновленная зрительной корой головного мозга, состоит из четырех слоев. Нейроны первых двух слоев связаны с небольшими участками предыдущего слоя, которые называются рецептивными полями (см. главу 6 о сверточных сетях). Последовательные слои извлекают из изображения все более абстрактные и обобщенные свойства.

Вскоре Ларри стал искать партнеров из инженерной части Bell Labs для разработки технологии и получения на ее основе коммерческого продукта. Проект заинтересовал группу инженеров. Мы работали вместе и очень быстро разработали систему для считывания сумм на банковских чеках.

В системе использовалась «большая» сверточная сеть LeNet5 с 340 000 подключениями и «сетчаткой» размером 20 × 20 пикселей. Я разработал ее с помощью моих коллег и друзей Леона Ботту, Йошуа Бенжио и Патрика Хаффнера в сотрудничестве с другими инженерами. Наша система считывала сумму около половины предоставляемых ей чеков, делая при этом менее 1 % ошибок. Другая половина чеков отклонялась машиной – их необходимо было обрабатывать вручную. Именно тогда наша система впервые достигла уровня точности, действительно пригодного для использования.

Оказалось, что дочерняя компания AT&T, компания NCR (National Cash Register), продавала сканеры чеков и банкоматы для банков. Мы оборудовали их нашей системой автоматического считывания. В 1994 г. появились первые банкоматы NCR французского Банка взаимного кредитования Бретании, с нашей системой, которая автоматически считывала сумму чека, внесенного в банкомат.

Первое внедрение системы скорочтения произошло в 1995 г. Мы отмечали свой успех в итальянском ресторане в очаровательном городке Ред-Бэнк, родном городе джазмена графа Бэйси и режиссера Кевина Смита, неподалеку от нашей лаборатории.

Но, вернувшись домой, мы узнали, что руководство AT&T только что решило разделить компанию на несколько независимых. Через несколько месяцев NCR перешла на другую сторону, забрав с собой группу, которая разрабатывала и продавала продукцию. Новая компания Lucent Technologies, в свою очередь, разделилась, забрав с собой бренд Bell Labs, а также большую часть лабораторий, включая группу инженеров, с которыми мы работали. Тем временем наша исследовательская группа осталась в AT&T и теперь зависела от новой организации AT&T Labs Research. К моему огорчению, проект пришлось приостановить.

Рис. 2.3. LeNet5. Коммерчески развернутая сверточная сеть для распознавания рукописных символов

Архитектура сети второго поколения состоит из семи слоев. Она намного больше предыдущей и использует отдельные слои для свертки и подключения (см. главу 6). Она может распознавать в том числе числа, написанные от руки без соблюдения почтовых правил.

NCR и Lucent продолжали продавать новую продукцию. В конце 1990-х наша система считывала 10–20 % всех чеков, выпущенных в США. Это был один из самых впечатляющих успехов в области нейронных сетей того десятилетия.