- 深度强化学习理论与实践
- 龙强 章胜编著
- 341字
- 2024-12-27 22:25:07
1.3.5 直接使用自编环境
将自编环境模型注册到Gym库中还是比较麻烦的。实际上,如无特别需要,则没有必要将自编环境模型注册到Gym库中,而是直接编写一个环境类。这样使用起来更加直接方便,修改也更容易一些。以例1-2格子世界为例,其环境模型的代码如下:




注意,默认将环境模型代码和测试代码放在同一个.py文件中,如果放在不同的文件中,则需要先在测试代码中导入环境模型,对该环境的测试代码如下:

(1) 有的资料将状态(State)定义为环境的整体状态,将智能体能够观测到的环境状态部分定义为观测(Observation),在本书中假设这两者始终一样,即智能体总是能够观测到环境的全部状态,所以对状态和观测不加区分,统一用状态的说法。
(2) St表示作为一个随机变量的状态,st表示一个特定的状态,是St的一个样本。后文中的At和at,Vπ和vπ,Qπ和qπ同理。