- Joy RL:强化学习实践教程
- 江季 王琦 杨毅远
- 1187字
- 2025-05-19 16:15:07
1.1 为什么要学习强化学习?
我们先讨论一下为什么要学习强化学习,以及强化学习对于我们的意义。可能大部分读者都是通过人工智能才了解到强化学习的,但实际上早在我们认识人工智能之前可能就已经不知不觉地接触到了强化学习。
笔者想起了初中生物课本中关于蚯蚓的一个实验,其内容大致是这样的:如图1-2所示,将蚯蚓放在一个盒子中,盒子中间有一个分岔路口,路的尽头分别放有食物和电极,让蚯蚓自己爬行到其中一条路的尽头,在放有食物的路的尽头蚯蚓会品尝到美味的食物,而在放有电极的路的尽头则会遭到轻微的电击。

图1-2 蚯蚓实验
该实验的目的是让蚯蚓能一直朝着有食物的路爬行,但由于蚯蚓没有真正的眼睛,因此一开始蚯蚓可能会一直朝着有电极的路爬行并且遭到电击。每次蚯蚓遭到电击或者吃到食物之后,实验者会将其放回原处,经过多次实验,蚯蚓会逐渐学会朝着有食物的路爬行,而不是朝着有电极的路爬行。
在这个过程中,蚯蚓在不断地尝试和试错中学习到了正确的策略。虽然初中生物课本中这个实验的目的是说明蚯蚓的运动是由外界刺激所驱动的,而不是蚯蚓自身的意志所驱动的,但在今天,从人工智能的角度来看,这其实带有较为鲜明的强化学习的“味道”,即试错学习(trial and error learning)。
试错学习一开始是和行为心理学等工作联系在一起的,主要包括以下几个关键部分。
● 尝试:采取一系列动作或行为来尝试解决问题或实现目标。
● 错误:在尝试的过程中可能会出现错误,这些错误可能是环境的不确定性导致的,也可能是自身的不当行为导致的。
● 结果:每次尝试的结果,无论是积极的还是消极的,都会对下一次尝试产生影响。
● 学习:通过不断地尝试并出现错误,自身会逐渐积累经验,了解哪些动作或行为会产生有利的结果,从而在下一次尝试中做出更加明智的选择。
试错学习在我们的日常生活中屡见不鲜,并且通常与其他形式的学习形成对比,例如经典条件反射(巴甫洛夫条件反射)和观察学习(通过观察他人来学习)。注意,试错学习虽然是强化学习中最鲜明的要素之一,但并不是强化学习的全部,强化学习还包含其他的学习形式,例如观察学习(对应模仿学习、离线强化学习等技术)。
另外,在学习过程中个人做出的每一次尝试都是一次决策(decision),每一次决策都会带来相应的结果。这个结果可能是好的,也可能是坏的;可能是即时的,比如我们吃到棉花糖就能立刻感受到它的甜,也可能是延时的,比如寒窗苦读十年之后,方得“一日看尽长安花”。
我们把好的结果称为奖励(reward),坏的结果称为惩罚(punishment)或者负的奖励。最终通过一次次的决策来实现目标,这个目标通常是以最大化累积的奖励来呈现的,这个过程就是序列决策(sequential decision making)过程,而强化学习就是解决序列决策问题的有效方法之一,即本书的主题。换句话说,对于任意问题,只要能够将其建模成序列决策问题或者带有鲜明的试错学习特征,就可以使用强化学习来解决,并且这是截至目前最为高效的方法之一,这就是要学习强化学习的原因。