Рескорла и Вагнер никак не могли допустить такого подкрепления ассоциаций - по сути, не было способа, чтобы подсказка, связанная с вознаграждением в одних обстоятельствах, играла роль вознаграждения в других. Но Саттону это удалось. В алгоритме Саттона, известном как "обучение временной разницей", убеждения обновляются в ответ на любое нарушение ожиданий. Например, когда вы идете по офисному коридору к своему столу, ожидания относительно вознаграждения могут быть довольно низкими. Но когда вы слышите, как ваши коллеги в конференц-зале начинают первый куплет песни "С днем рождения", это означает, что произошло нарушение. Убеждения должны быть обновлены; теперь вы находитесь в состоянии, когда вознаграждение уже на горизонте. Именно здесь происходит обучение временным различиям. Вы можете выбрать войти в конференц-зал, допеть песню, понюхать свечи и съесть торт. При выполнении этих действий не произойдет никаких дальнейших нарушений, а значит, не произойдет и дальнейшего обучения. Таким образом, не само получение вознаграждения вызывает какие-либо изменения. Единственное обучение произошло в коридоре, за много шагов до награды.
Чему именно здесь учат? Какая ментальная концепция была обновлена в коридоре? Это не ассоциация подсказки с вознаграждением - по крайней мере, не напрямую. Скорее, это сигнал, указывающий вам путь к вознаграждению, если вы сделаете правильные шаги в этом направлении.
Это может показаться знакомым, потому что обучение временным различиям помогает вам узнать функцию ценности. В каждый момент времени, согласно этой функции, у нас есть ожидания - по сути, ощущение того, как далеко мы находимся от вознаграждения, - которые определяют ценность состояния, в котором мы находимся. По мере того, как проходит время или мы совершаем действия в мире, мы можем оказаться в новых состояниях, которые имеют свои собственные связанные с ними ценности. Если мы правильно предвидели ценность этих новых состояний, то все в порядке. Но если ценность текущего состояния отличается от того, что мы предсказывали, когда находились в этом состоянии раньше, то это означает, что мы допустили ошибку. А ошибки побуждают к обучению. В частности, если значение текущего состояния больше или меньше, чем мы ожидали, когда находились в предыдущем состоянии, мы изменяем значение предыдущего состояния. То есть мы берем сюрприз, который произошел сейчас, и используем его для изменения наших представлений о прошлом. Таким образом, в следующий раз, когда мы окажемся в предыдущем состоянии, мы сможем лучше предсказать будущее.
Подумайте о поездке в парк аттракционов. Здесь ценность вашего местоположения измеряется тем, как далеко вы находитесь от этого полезного места. Выходя из дома, вы рассчитываете добраться туда за 40 минут. Вы едете прямо пять минут и выезжаете на шоссе. Теперь вы рассчитываете добраться до места через 35 минут. Через 15 минут езды по шоссе вы сворачиваете с него. Теперь ваше расчетное время прибытия составляет 20 минут. Но, выехав на съезд и свернув на боковую улицу, вы попадаете в пробку. Сидя в своем еле двигающемся автомобиле, вы понимаете, что будете в парке только через 30 минут. Теперь ваше ожидаемое время прибытия увеличилось на 10 минут - значительная ошибка.
Что следует извлечь из этой ошибки? Если бы у вас было точное представление о мире, то в момент съезда с дороги вы бы ожидали еще 30 минут езды. Таким образом, обучение по временной разнице говорит, что вы должны обновить значение состояния, связанного с этим выездом. То есть вы используете информацию, полученную в одном состоянии (пробка на обочине), чтобы обновить свои убеждения о ценности предыдущего состояния (выезд). И это может означать, что в следующий раз, когда вы поедете в этот парк развлечений, вы избежите этого выезда и выберете другой. Но для того, чтобы извлечь уроки из этой ошибки, не обязательно приезжать в парк развлечений на 10 минут позже; достаточно было ожидать, что это произойдет при виде пробки.