• модели поискового адаптивного поведения на основе спонтанной активности [11,12,32] (В.А. Непомнящих, Институт биологии внутренних вод им. И.Д. Папанина РАН);
• концепции и модели автономного адаптивного управления на основе аппарата эмоций [33] (А.А. Жданов, Инстшут системного программирования РАН);
• разработку принципов построения систем управления антропоморфных и гуманоидных роботов [34] (Л.А. Станкевич, Санкт-Петербургский политехнический университет);
• разработку нейросетевых моделей поведения роботов и робототехнических устройств [35] (А.А. Самарин, НИИ нейрокибернетики им. А.Б. Когана РТУ);
• модели АП на основе эволюционных и нейросетевых методов, в частности, модели эволюционного возникновения целенаправленного адаптивного поведения [36-38] (В.Г. Редько, М.С. Бурцев, О.П. Моса-лов, Институт оптико-нейронных технологий РАН, Институт прикладной математики им. М.В. Келдыша РАН).
2.3. Проект «Мозг Анимата» [39]
Анализ исследований в рамках анимат-подхода показывает, что разработанные модели пока еще очень фрагментарны и иллюстрируют только отдельные стороны адаптивного поведения. Поэтому было бы целесообразно предложить общую «платформу» для систематического построения моделей адаптивного поведения. В работах [39,40] предложен проект «Мозг Анимата», который нацелен на формирование общей схемы построения таких моделей. Проект основан на теории функциональных систем П.К. Анохина [41]. Кратко опишем данный проект, следуя [39], где предложена архитектура системы управления аниматом, основанная на нейросетевых адаптивных критиках. Нейро-сетевые адаптивные критики - схемы автономного адаптивного управления, основанные на методе обучения с подкреплением [22].
Предполагается, что система управления аниматом имеет иерархическую архитектуру. Базовым элементом системы управления является отдельная функциональная система (ФС). Верхний уровень соответствует основным потребностям организма: питания, размножения, безопасности, накопления знаний. Более низкие уровни соответствуют тактическим целям поведения. Блоки всех этих уровней реализуются с помощью ФС. Управление с верхних уровней может передаваться на нижние уровни (от «суперсистем» к «субсистемам») и возвращаться назад. Предполагается, что система управления аниматом функционирует в дискретном времени t= 1, 2, ..., и в каждый такт времени активна только одна ФС.
Предполагается простая формализация ФС на основе адаптивных критиков. Формальная ФС моделирует следующие важные особенности ее биологического прототипа: а) прогноз результата действия, б) сравнение прогноза и результата, и в) коррекцию прогноза путем обучения в соответствующих нейронных сетях.
Схема адаптивного критика. Рассматриваемая схема адаптивного критика состоит из двух нейронных сетей: Модель и Критик. Предполагается, что производные по весам синапсов нейронных сетей могут быть вычислены обычным методом обратного распространения ошибки [42]. Также предполагается, что адаптивный критик предназначен для выбора одного из нескольких действий. Например, при управлении движением действиями могут быть: двигаться вперед, поворачивать вправо, поворачивать влево, стоять на месте. В каждый момент времени t адаптивный критик должен выбрать одно из возможных действий.
Цель адаптивного критика - максимизировать функцию суммарной награды «, U(t):
U{t) = YJrJr{tJ) , t = t0,tht2,-,
J=о
где r(tj) - текущее подкрепление (награда r(l.j) > 0, или наказание r(tj) < 0), полученное адаптивным критиком в данный момент времени tj, у - коэффициент забывания, 0 < у < 1. т = tJ+\ - tj - шаг по времени. Коэффициент забывания учитывает, что чем дальше анимат «заглядывает» в будущее, тем меньше у него уверенность в оценке награды («рубль сегодня стоит больше, чем рубль завтра»).
Модель имеет два типа входов: 1) входы, характеризующие текущую ситуацию S(0 (сигналы из внешней и внутренней среды анимата), и 2) входы, характеризующие действия. Предполагается, что число возможных действий па невелико. Роль Модели - прогноз следующей ситуации Sp',(? г) для всех возможных действий о,, /—1,2,..., Па-
РоЛЬ Критика - оценка качества ситуаций F(S), в частности, прогнозируемых ситуаций Sp',(t I т) для всех возможных действий. Величина F(S) есть оценка аниматом функции суммарной награды U(t), которую можно получить в будущем, исходя из данной ситуации S. Эта оценка постепенно уточняется в процессе обучения.