что дает:
Поэтому, чтобы минимизировать эти потери, следует выбрать вариант, максимизирующий апостериорное распределение. То есть наилучшая гипотеза - это гипотеза с наибольшей апостериорной вероятностью.
Глава 11: Как вознаграждение руководит действиями
Обучение с подкреплением описывает, как животные или искусственные агенты могут научиться вести себя, просто получая вознаграждение. Центральным понятием в обучении с подкреплением является ценность - мера, которая сочетает в себе размер вознаграждения, полученного в данный момент, и ожидаемого в будущем.
Уравнение Беллмана определяет ценность (V) состояния (s) в терминах вознаграждения ( ), полученного, если в этом состоянии будет выполнено действие a, и дисконтированной стоимости следующего состояния:
Здесь - коэффициент дисконтирования, а T - функция перехода, определяющая, в каком состоянии окажется агент после выполнения действия a в состоянии s. Операция max служит для того, чтобы всегда выполнялось действие, приносящее наибольшую ценность. Вы можете видеть, что определение ценности является рекурсивным, поскольку сама функция ценности появляется в правой части уравнения.
Глава 12: Великие единые теории мозга
Принцип свободной энергии был предложен в качестве объединяющей теории мозга, которая может описать нейронную активность и поведение. Свободная энергия определяется как:
где s - сенсорные входы, m - внутренние состояния мозга, а x - состояния мира. Первый член в этом определении (отрицательная логарифмическая вероятность s) иногда называют "удивлением", поскольку он высок, когда вероятность сенсорных входов низка.
DKL - это расхождение Куллбэка-Лейблера между двумя распределениями вероятностей, определяемое как:
Таким образом, второй член определения свободной энергии измеряет разницу между вероятностью состояний мира с учетом внутреннего состояния мозга и вероятностью состояний мира с учетом сенсорных входов. Можно считать, что мозг пытается приблизить p(x | s), используя свои собственные внутренние состояния (q(x | m)), и чем лучше приближение, тем меньше свободная энергия.
Поскольку принцип свободной энергии гласит, что мозг стремится минимизировать свободную энергию, он должен обновлять свои внутренние состояния в соответствии с этим:
Кроме того, выбор действий (a), предпринимаемых животным, влияет на получаемые им сенсорные сигналы:
Поэтому действия также должны выбираться с учетом их способности минимизировать свободную энергию: