Выбрать главу

Поразительная способность человека мгновенно ухватывать суть сложной проблемы, выделять самое главное не только из картинки, но и из книг, из звуков, понимать процессы в их динамике, вовсю изучаются нейрофизиологами, психологами и философами в самых разных странах, на это брошены гигантские ресурсы. Ведь чем быстрее ученые опишут механизм работы восприятия, тем ближе к решению станет задача синтеза искусственного разума.

Когда Хинтон создавал капсульные нейросети, он также использовал эту особенность. Получив визуальную информацию, мозг распознает ее, используя уже усвоенные паттерны и отношения между ними, писал Хинтон. Если использовать тот же подход, мы распознаем женщину независимо от угла, под которым мы ее увидим.

ТАНЦУЮЩИЕ ПАТТЕРНЫ

Как это сделать на практике? Хинтон обратился к трехмерной графике, где отношения между трехмерными объектами называются «позами». «Поза» — это матрица, которая описывает перемещение тела и его поворот. Так вот, Хинтон предложил очень важный принцип: что для того, чтобы безошибочно распознавать и классифицировать объекты на выходе сети, нужно сохранять отношения «поз» частей объектов друг к другу. Такие отношения описываются четырехмерными «матрицами поз».

В одном научно-фантастическом рассказе трехмерная развертка мира ставится «на ребро», и при толчке со стороны внешних сил складывается в четырехмерный кубик. Так и с «матрицами поз», которые описывают трехмерный объект: сохраняя матрицу, нейросеть всегда сумеет отличить этот объект, вне зависимости от угла, под которым его видит.

Конечно, если модель одной только этой особенности мозга требует четвертого измерения, можно лишь восторгаться таким творением, как человек!

Капсульная сеть, использующая этот подход, совершает вполовину меньше ошибок в распознавании и классификации, чем сверточная, при этом ей требуется на порядки меньше данных.

Распознаваемые первыми слоями нейросети черточки и дужки обобщаются в паттерны, потом в определенные сочетания паттернов, то есть паттерны более высокого уровня: допустим, точка, точка, запятая — вместе «рожица» кривая. Потом эти рожицы словно заворачиваются в капсулы, и дальше продолжают распознаваться, как бы мы их не вертели. И если рядом будут лежать еще несколько точек и запятых, не укладывающихся в «матрицу позы», система не опознает их как «рожицу».

Работу капсульных нейросетей можно образно представить и в виде балета.

Допустим, мы хотим обучить искусственный интеллект ставить кордебалетную сцену в царстве теней из моего любимого балета «Баядерка». Паттерны — это балерины. Черточки и дужки сложились в пачки, в ноги и руки, в прекрасные головки танцовщиц. Мы их всех распознали и выпускаем на сцену, и они танцуют под музыку Минкуса. Танцевать они будут кто во что горазд, прыгая в разные стороны и вертя свои фуэте как придется. Более того, они быстро начнут терять свои конечности: руки, ножки, головки прекрасных девушек будут хаотично носиться по сцене и переходить от одной к другой и вся сцена вскоре будет напоминать бурную дискотеку в переполненном клубе, где уже ничего не различить и остается лишь подпустить побольше дыма. Сверточные сети мало помогут нам в обучении: прима-балерина Ульяна Лопаткина получит, может быть две или три головы, а потом, отказавшись от них, сначала размножится, а потом пропадет вовсе. Но по мере обучения при помощи капсульных нейросетей пространственные отношения балерин друг к другу будут закрепляться, и мы получим желаемый танец.

Точки света и тени сначала сложатся в балерин, невидимые капсулы охватят их так, что мы безошибочно распознаем отдельных балерин вне зависимости от их танцевальных па. Далее паттерны будут словно заворачиваться в капсулы, и продолжат распознаваться как бы мы их ни вертели. Будет освоено на более высоком уровне и сочетание этих паттернов в капсулах. Например, вот жрецы в индусском танце, они закапсулированы в своих нарядах, а вот девушка с кувшином. Нейросети распознают паттерны в не просто в их бессвязных наборах, а в их ориентации, в сочетаниях, в танце.

На более высоком уровне абстракции мы признаем проникновенный ритуал спуска теней перед безутешным Солором, курящим гашиш в своей собственной четырехмерной матрице. Постепенно обучаясь, сеть будет покорять уровень за уровнем. И если мы обучим нейросеть всему сложнейшему рисунку этого балета, то, глядишь, когда-нибудь она превзойдет уровень провинциального режиссера и заключит в свою нежную многомерную матрицу общий образ сцены, столь напоминающей движения рук Никии в ее последнем смертельном танце.