- Joy RL:强化学习实践教程
- 江季 王琦 杨毅远
- 1128字
- 2025-05-19 16:15:05
前言
在几年前,我们“‘蘑菇书’三剑客”(笔者、王琦、杨毅远)已经在GitHub上发布过线上教程“EasyRL”,填补了强化学习国内相关资料较少的空缺。特此再次衷心感谢李宏毅、周博磊、李科浇3位老师的授权与开源奉献精神,没有他们的鼓励与无私奉献,就没有深受广大强化学习初学者喜爱的“蘑菇书”。受到广大读者的鼓励,我们不断优化教程,以期帮助读者更好、更愉快地入门强化学习。
时光荏苒,笔者已在业界深耕多年,对于强化学习实践有了更加深入的认识,并在理论与实践的结合方面有了一些心得。与此同时,我们也发现读者在将理论应用到实践的过程中似乎遇到了一些困难。首先,很多已经有人工智能知识基础的读者只是想用强化学习来做一些其他方面的交叉研究,但由于强化学习理论错综复杂,对于这样的读者来说很难在短时间内快速把握其重点,并且容易陷入一些与实践关系不大的小知识点的陷阱中。其次,有一些读者很难将强化学习中的公式和实际代码对应起来,例如策略函数的设计等,并且对算法的各种超参数的调整也不知从何处入手。
虽然市面上已经有一些关于强化学习实践的教程,但是这些教程往往过于偏重实践,忽视了理论与实践之间的平衡。此外,相关的实践也往往局限于一些简单的实验和算法,涵盖的内容不够全面。鉴于这些现状,笔者希望读者对强化学习知识有更深入、全面的了解,这也是本书编写的初衷。
本书的内容主要基于我们的理论知识与实践经验,并融入了一些原创内容,例如针对策略梯度算法的两种不同的推导版本,以便让读者从不同的角度更好地理解相关知识。全书始终贯穿强化学习实践中的一些核心问题,比如优化值估计的实践技巧、解决探索与利用的平衡等问题。全书的内容编排合理,例如从传统强化学习到深度强化学习过渡的内容中,增加对深度学习基础的总结归纳内容,并对一些应用十分广泛的强化学习算法,如DQN、DDPG以及PPO等算法进行强调,读者可有选择性地阅读。本书除了给出一些简单的配套代码之外,还提供一套“JoyRL”开源框架,以及更多复杂环境实验示例,想要深入了解的读者可自行研究。
本书由开源组织Datawhale的成员采用开源协作的方式完成,历时1年有余,主要参与者包括笔者、王琦和杨毅远。此外,十分感谢谌蕊(清华大学)、丁立(上海交通大学)、郭事成(安徽工业大学)、孙成超(浙江理工大学)、刘二龙(南京大学)、潘笃驿(西安电子科技大学)、邱雯(日本北见工业大学)、管媛媛(西南交通大学)、王耀晨(南京邮电大学)等同学参与“JoyRL”开源框架的共建,以及林诗颖同学在本书编写过程中的友情帮助。在本书写作和出版过程中,人民邮电出版社提供了很多出版的专业意见和支持,在此特向信息技术分社社长陈冀康老师和本书的责任编辑致谢。
由于笔者水平有限,书中难免有疏漏和不妥之处,还望读者批评指正。
江季
2024年9月