Выбрать главу

Нет, впрочем, даже самые продвинутые на сегодняшний день капсульные нейросети вряд ли способны на такой тур-де-форс — поэтому искусственный интеллект представит нам свою вариацию Гамзати или прощальный танец Никии еще очень нескоро. Но в менее ответственных постановках — таких, как тренировка роботов открывать двери и не падать при этом со ступенек — капсульные сети уже что-то могут.

Почему к идее капсульных сетей не пришли на сорок лет раньше? У Хинтона, по его рассказам, она уже вертелась в голове. Возможно, и наш соотечественник Александр Галушкин вынашивал в своей голове что-то подобное. Но ни у того, ни у другого тогда просто не было ни вычислительных возможностей, ни достаточно сложного математического аппарата, чтобы это осуществить.

ЛУЧШЕ, ЧЕМ ЛЮДИ

В октябре 2016 года команда разработчиков Microsoft, работающих с искусственным интеллектом (известная как MAIR, Microsoft Artificial Intelligence and Research), сообщила о создании системы распознавания речи, которая ошибается меньше, чем люди. По данным исследователей, пословная вероятность ошибки снизилась до 5,9%. В декабре следующего, 2017 года этот показатель удалось снизить уже до 5 процентов. Это означает не только то, что гаджет сможет расшифровать запись выступления человека лучше вас. Это значит, что машина понимает логику построения человеческой речи лучше вас. Она сумеет синтезировать речь так, что вы точно не почувствуете, что говорит не человек, а искусственный разум. Надо понимать, что это нас ждет в самом ближайшем будущем.

Системы полнотекстового распознавания речи уже сейчас вовсю применяются банками. Например, переговоры операторов с должниками преобразуются в текст, который затем сохраняется в специализированном хранилище.

Перед тем как перевести сервис Google Translate на глубинное обучение, нейросеть опробовали в сложнейшей языковой паре английский —китайский. Количество ошибок перевода снизилось сразу на 60%. Нейросеть сразу достигла гораздо лучшего качества перевода, чем обычные статистические методы.

Распознавать образы машина, по некоторым данным, научилась лучше нас еще в 2015 году. Почему мы можем это предположить? Есть такой проект ImageNet — большая база данных, которая состоит из более 14 миллионов визуальных образов, аннотированных вручную. Она содержит также более 20 тысяч категорий наподобие «клубника» или «воздушные шары», каждая состоит из нескольких сотен картинок.

С 2010 года ImageNet проводит ежегодное состязание, в котором принимают участие десятки программ распознавания образов со всего мира. Участникам представляется выборка из примерно тысячи категорий с непересекающимися образами в каждом. Задача для программ: как можно точнее распознать и классифицировать все образы. Поскольку образцы, заполненные людьми, уже имеются, есть вполне убедительный критерий для сравнения.

В первые пару лет победители достигали уровня примерно в 25%, но уже в 2012 году, когда начался бум сверточных нейросетей, соревнования выиграла программа AlexaNet, сверточная сеть, которая достигла уровня в 16 процентов ошибки. Исследователи Microsoft утверждают, что в 2015 году достигли при работе с этой базой человеческого уровня распознавания образов, что соответствует примерно 5-процентной ошибке, и даже превзошли его.

Не все ученые согласились с этим выводом. Так, одна из организаторов состязания Ольга Русаковская сочла, что пока рано говорить о превосходстве машины над человеком: ведь люди распознают не тысячу категорий изображений, чему программисты учат свои нейросети, а гораздо больше. Кроме того, в отличие от программ люди лучше и быстрей понимают контекст, в котором находится изображение.

В соревновании 2017 года 29 команд из 38 участвующих показали результат ошибки меньший, чем 5 процентов. В ноябре того же года команда проекта Google по разработке нейросетей с новыми топологиями создала систему NASNet, оптимизированную под ImageNet, которая, по утверждениям представителей Google, превзошла все результаты, достигнутые кем-либо ранее.

Тогда же организаторы ImageNet заявили, что в новом состязании они предложат участникам классифицировать уже не двухмерные, а трехмерные образы. Это наверняка будет способствовать развитию систем с ИИ в таких областях, как робототехника и дополненная реальность.

Нейросети пока хуже людей отвечают на вопросы, заданные по картинкам, на понимание того, что там изображено, но быстро нагоняют людей и в этом. Люди правильно отвечают на вопросы в 86 процентах случаев. В 2015 году показатель машин составлял 57 процентов, а в 2017 году —уже 72 процента, так что через два-три года и эта вершина будет покорена искусственным интеллектом.