1.4 学习本书之前的一些准备

我们先介绍一下关于本书出版的初衷。其实目前强化学习相关的图书在市面上已经琳琅满目了,但是其中很多偏向理论阐述,缺少实际的经验总结,比如可能会通过数学推导来告诉读者某某算法是可行的,但是一些实验细节和不同算法之间的对比很难体现出来,理论与实践之间、公式与代码之间其实存在一定的“鸿沟”。

另外,由于信息时代知识的高速迭代,面对海量的信息,我们需要从中梳理出重点并快速学习,以便尽快看到实际应用的效果,而这就不得不需要经验丰富的老师傅来“带路”,这也是本书出版的初衷之一。笔者会基于大量的强化学习实践经验,对理论部分删繁就简,并将其与实践紧密结合,以更通俗易懂的方式帮助读者快速实践。

在具体学习本书之前,先给读者做一些基础知识的铺垫。

强化学习是机器学习的一个分支,因此读者需要具备一定的机器学习基础,例如具备基本的线性代数、概率论、数理统计等基础知识。当然只需要读者修过相关的大学课程即可,不必刻意回顾一些知识,原理部分可跟随本书的推导学习。

学习强化学习初期是不涉及深度神经网络相关的知识的,这一部分通常称为传统强化学习部分。虽然这部分的算法在今天已经不常用,但是其中蕴含的一些思想和技巧是非常重要的,因此读者需要对这部分内容有所了解。在学习结合深度学习的深度强化学习部分之前,本书会用一章来帮助读者整理需要的深度学习知识。

深度学习在强化学习中的主要作用是提供强大的函数拟合能力,使得智能体能够适应复杂、高维度和非线性的环境。深度学习与强化学习之间的关系相当于眼睛和大脑的关系,眼睛是帮助大脑决策、更好地观测世界的工具,一些没有眼睛的动物,例如蚯蚓,也可以通过其他的感官来观测并解析状态。再如,同样的大脑决策水平的情况下,即相同的强化学习算法条件下,正常人要比双目失明的人做日常的决策方便。但是,即使深度学习部分是相同的,例如正常大人和小孩都能通过眼睛观测世界,大脑决策水平的差异也会让两者的表现有所差异。

总而言之,深度学习与强化学习在复杂的环境下缺一不可。虽然强化学习算法很多,但基本分为两类,即基于价值的算法和基于策略的算法。这两类算法各有优势,请读者在学习之后根据实际需要谨慎选择。