Выбрать главу

что дает:

 

Поэтому, чтобы минимизировать эти потери, следует выбрать вариант, максимизирующий апостериорное распределение. То есть наилучшая гипотеза - это гипотеза с наибольшей апостериорной вероятностью.

 

Глава 11: Как вознаграждение руководит действиями

Обучение с подкреплением описывает, как животные или искусственные агенты могут научиться вести себя, просто получая вознаграждение. Центральным понятием в обучении с подкреплением является ценность - мера, которая сочетает в себе размер вознаграждения, полученного в данный момент, и ожидаемого в будущем.

Уравнение Беллмана определяет ценность (V) состояния (s) в терминах вознаграждения ( ), полученного, если в этом состоянии будет выполнено действие a, и дисконтированной стоимости следующего состояния:

 

Здесь - коэффициент дисконтирования, а T - функция перехода, определяющая, в каком состоянии окажется агент после выполнения действия a в состоянии s. Операция max служит для того, чтобы всегда выполнялось действие, приносящее наибольшую ценность. Вы можете видеть, что определение ценности является рекурсивным, поскольку сама функция ценности появляется в правой части уравнения.

 

Глава 12: Великие единые теории мозга

Принцип свободной энергии был предложен в качестве объединяющей теории мозга, которая может описать нейронную активность и поведение. Свободная энергия определяется как:

 

где s - сенсорные входы, m - внутренние состояния мозга, а x - состояния мира. Первый член в этом определении (отрицательная логарифмическая вероятность s) иногда называют "удивлением", поскольку он высок, когда вероятность сенсорных входов низка.

DKL - это расхождение Куллбэка-Лейблера между двумя распределениями вероятностей, определяемое как:

Таким образом, второй член определения свободной энергии измеряет разницу между вероятностью состояний мира с учетом внутреннего состояния мозга и вероятностью состояний мира с учетом сенсорных входов. Можно считать, что мозг пытается приблизить p(x | s), используя свои собственные внутренние состояния (q(x | m)), и чем лучше приближение, тем меньше свободная энергия.

Поскольку принцип свободной энергии гласит, что мозг стремится минимизировать свободную энергию, он должен обновлять свои внутренние состояния в соответствии с этим:

Кроме того, выбор действий (a), предпринимаемых животным, влияет на получаемые им сенсорные сигналы:

 

Поэтому действия также должны выбираться с учетом их способности минимизировать свободную энергию: