2.2 马尔可夫性质

现在我们介绍马尔可夫决策过程的一个前提,即马尔可夫性质,它用公式表示如下:

(2.1)

这个公式的意思就是在给定历史状态的情况下,某个状态的未来只与当前状态有关,与历史状态无关。这个性质对于很多问题来说有着非常重要的指导意义,因为这允许我们在没有考虑系统完整历史的情况下预测和控制其行为,随着我们对强化学习的深入,我们会越来越明白这个性质的重要性。

实际中,有很多例子其实是不符合马尔可夫性质的,比如我们所熟知的棋类游戏,因为我们在决策的过程中不仅需要考虑当前棋子的位置和对手的情况,还需要考虑历史走子的位置等。换句话说,棋类游戏不仅依赖于当前状态,还依赖于历史状态。当然这并不意味着完全不能用强化学习来解决以上问题,实际上我们可以用深度神经网络来表示当前的棋局,并用蒙特卡罗搜索树等技术来模拟玩家的策略和未来可能的状态,以构建新的决策模型,这就是著名的AlphaGo背后的算法[4]。总之,当我们要解决的问题不能严格符合马尔可夫性质时,可以结合其他的方法来辅助强化学习进行决策。


[4] BABBAR S. Review-Mastering the game of Go with deep neural networks and tree search[J]. 2017. DOI:10. 13140/RG.2.2.18893.74727.