Хорошо бы ввести и понятие «среда». Среда — это нечто, способное находиться в каждый момент времени в одном из некоторого конечного набора состояний. Но обладает она и еще важным свойством. Для каждой пары: «состояние автомата — состояние среды», — среда способна выдавать некоторый выигрыш. Выигрыши различны для различных пар. Они могут быть и отрицательными. Отрицательный выигрыш рассматривается как проигрыш, наказание.
Теория позволяет легко посчитать, что если поведение автомата никак не связано с состояниями среды, иначе говоря, по отношению к среде автомат ведет себя случайным образом, то суммарный выигрыш за большой промежуток времени оказывается равным среднему по всем возможным выигрышам. Средний выигрыш может быть как положительным, так и отрицательным, в зависимости от конкретной среды.
Пусть некоторый автомат в некоторой заданной среде получает выигрыш, больший среднего. Поведение такого автомата называют целесообразным. Подобное определение совпадает с привычным бытовым понятием целесообразности. Более того, если бы речь шла не об автомате, а о человеке и мы бы видели, что этот человек в некоторых условиях способен добиться выигрыша, мы наверняка назвали бы его поведение разумным. Однако суть не в названии.
Простейшим из всех автоматов, очевидно, является автомат, способный принимать только два состояния. Каждый раз, получая от среды выигрыш со знаком плюс (поощрение), автомат сохраняет свое состояние, а получая выигрыш со знаком минус (наказание), автомат меняет свое состояние на противоположное. Такой автомат подобен деревенскому дурачку, играющему на гармошке только две мелодии — веселую и грустную. Встречает он на улице свадьбу, начинает играть грустную мелодию и, по всей вероятности, получает по шее. На другой день, встречая похоронное шествие, он играет веселую мелодию (переключился в другое состояние) — снова получает по шее и так далее. Поведение подобного автомата не является целесообразным. К такому же выводу приводит и строгая теория.
Представьте себе более сложный автомат, состоящий из двух простых. Один из них — рабочий автомат, а второй — автомат памяти. Состояния рабочего автомата называются действиями. Эти действия воспринимаются средой, и в ответ на каждое действие рабочего автомата среда выдает выигрыш того или иного размера. Иначе обстоит дело со сменой действий рабочего автомата. Они изменяются не в зависимости от выигрыша или проигрыша, а в зависимости от состояния автомата памяти.
Автомат памяти можно уподобить лесенке с перенумерованными ступеньками. Самая нижняя ступенька имеет номер один, следующая за ней — номер два и так далее. Каждому состоянию автомата соответствует нахождение шарика на какой-либо ступеньке. Рабочий автомат меняет свое состояние только в том случае, если шарик в автомате памяти расположен на ступеньке номер один.
В теории рассматривается целое семейство таких автоматов. Первый в этом семействе — автомат с линейной тактикой. При получении положительного выигрыша (поощрения) автомат с линейной тактикой сохраняет свое состояние (действие). При этом шарик в автомате памяти поднимается на ступеньку вверх. Наоборот, при получении наказания шарик в автомате памяти опускается на ступеньку вниз.
Автомат с линейной тактикой — автомат рассудительный. Если, например, шарик лежал на ступеньке номер три и автомат был наказан, шарик опустится на ступеньку номер два, но своего действия рабочий автомат не изменит. Автомат лишь «настораживается». Только после третьего наказания рабочий автомат принимает меры, то есть меняет свое состояние. Наоборот, несколько следующих друг за другом поощрений заставляют автомат «успокоиться» — шарик поднимается все выше и выше.
Теория показывает, что в стационарной среде, в условиях, когда смена состояний среды происходит случайно, но вероятности каждого из состояний не изменяются во времени, автомат с линейной тактикой демонстрирует целесообразное поведение. При неограниченном увеличении числа состояний памяти автомат с линейной тактикой способен получить выигрыш, максимально возможный в данной среде.
Теория коллективного поведения рассматривает семейство автоматов, близких к автомату с линейной тактикой. Среди них особый интерес представляет автомат В. Крылова. При поощрении он ведет себя как автомат с линейной тактикой. А при наказании он с равной вероятностью либо увеличивает на единичку состояние памяти, либо, наоборот, уменьшает ее на единицу. Автомат Крылова фаталист. Столкнувшись с неудачей, он предпочитает, фигурально выражаясь, как бы подбросить монетку и целиком ей доверяется. Если монета упала кверху орлом, автомат настораживается, а если решкой — успокаивается. Теория говорит нам, что можно поступать и так. Во всех стационарных случайных средах автоматы Крылова не только демонстрируют целесообразное поведение, но и способны добиться максимального выигрыша при неограниченном увеличении количества состояний памяти.