2.3 回报

前面讲到在马尔可夫决策过程中智能体的目标是以最大化累积的奖励呈现的,通常我们把这个累积的奖励称为回报(return),用表示,最简单的回报公式可以写成:

(2.2)

其中在前面提到过,表示最后一个时步,也就是每回合的最大步数。这个公式其实只适用于有限步数的情况,例如玩一局游戏,无论输赢,每回合总是会在有限的步数内以一个特殊的状态结束,这样的状态称为终止状态。但有一些情况是没有终止状态的,换句话说,智能体会持续与环境交互,比如人造卫星在发射出去后会一直在外太空作业直到报废或者被回收,这样的任务称为持续性任务。对于持续性任务,上面的回报公式是有问题的,因为此时

为了解决这个问题,我们引入一个折扣因子(discount factor),将其记为,并将回报公式表示为:

(2.3)

其中的取值范围为0~1,它表示未来奖励的重要程度,以进行当前奖励和未来奖励之间的权衡。换句话说,它体现了我们对长远目标的关注度。当时,表示我们只关心当前奖励,而不会关心未来的任何奖励。而当接近时,表示我们对所有未来奖励都给予较高的关注度。这样做的好处是让当前时步的回报与下一个时步的回报有所关联,即式(2.4):

(2.4)

这对于所有都是存在的,在后面我们学习贝尔曼方程的时候会明白它的重要性。