При выборе действия применяется е -жадное правило [22]:
- с вероятностью 1 - £ выбирается действие с максимальным значением F(Spr,(M-i)):
к = arg max г{ F(Sp,',(?+x))},
- с вероятностью s выбирается произвольное действие ак,
О < £ « 1,
к - индекс выбираемого действия.
Применение этого правила означает, что с большой вероятностью выбирается действие, для которого максимальна оценка суммарной награды U(i). ожидаемой в будущем.
Обучение Модели проводится обычным методом обратного распространения ошибки [42]. Смысл обучения Модели -уточнение прогнозов будущих ситуаций.
Обучение Критика проводится методом ошибки временной разности [22]. Смысл обучения Критика состоит в том, чтобы итеративно уточнять оценки качества ситуаций F(S(/)) в соответствии с поступающими подкреплениями г.
Функционирование системы управления аниматом.
Предполагается следующая схема работы ФС в рамках функционирования всей системы управления аниматом. Каждая ФС представляет собой адаптивный критик, имеющий связи с некоторой суперсистемой (системой более высокого уровня иерархии) и, возможно, одной или несколькими субсистемами (системами более низкого уровня иерархии). ФС активизируется командой от суперсистемы; Модель и Критик функционируют так, как описано выше. В результате осуществляется выбор действия ак. Дальнейшее зависит от вида действия ак. Если действие - команда для исполнительных элементов, то такое действие выполняется сразу. Далее анимат получает подкрепление г из внешней или внутренней среды, и производится обучение в нейронных сетях Модели и Критика.
Другой тип действий - команды для субсисгем. Для такого действия подается команда активизации определенной субсистемы (выбор конкретной субсистемы определяется номером действия ак). В этом случае сравнение прогноза и результата, оценка подкрепления г и обучение нейронных сетей откладывается до получения отчета от субсистемы.
После выполнения всех этих действий ФС посылает отчет об окончании своей работы суперсистеме.
Описанный способ работы ФС представляет собой обычный режим функционирования. Вводится также экстраординарный режим, который имеет место, если прогноз существенно отличается от фактического результата. В экстраординарном режиме величина е (вероятность выбора случайного действия) в данной ФС и ее субсистемах резко возрастает, и поиск новых решений включает большую случайную компоненту. Этот поиск может сопровождаться случайным формированием и селекцией новых функциональных систем, аналогично селекции нейронных групп в теории нейродарвинизма Дж. Эдельмана [43]. Таким образом, обычный режим функционирования может рассматриваться как тонкая настройка системы управления аниматом, в то время как экстраординарный режим - это грубый поиск подходящего поведения в чрезвычайных ситуациях.
Подробнее о работе данной схемы Мозга Анимата см. в [20,39].
Исследования адаптивного поведения - актуальное, содержательное и конструктивное направление, которое непосредственно связано с моделированием когнитивной эволюции. Также это направление исследований важно как биологически инспирированная научная основа разработок систем искусственного интеллекта. Это направление использует серьезные математические и компьютерные методы, и здесь построено множество интересных и содержательных моделей. Однако, в целом, результаты этих исследований пока еще далеки от решения стратегических задач, поставленных при инициировании этого направления.
Один из значительных и достаточно неожиданных выводов этих исследований состоит в том, что часто нетривиальное поведение может быть сформировано простой системой управления [11]. Причем, такой системой управления, о которой сам исследователь может и не догадаться - система управления (в частности, нейронная сеть) может формироваться в процессе эволюционной самоорганизации, например, с помощью генетического алгоритма.
Направление исследований Искусственный интеллект (ИИ), скорее всего, можно рассматривать как прикладное - применение принципов естественного интеллекта в искусственных практически важных для человека компьютерных системах. Судьба прикладных разработок зависит от наличия достаточно серьезного научного фундамента, на котором базируются такие разработки. Например, научной базой развития микроэлектроники во второй половине 20-го века была физика твердого тела. При этом для физиков чисто научные исследования твердого тела были интересны фактически независимо от применения их исследований, в результате чего научная основа микроэлектроники интенсивно развивалась. И результаты микроэлектроники, как наукоемкой технологии, впечатляющи.