封面
版权信息
内容简介
数学符号表
前言
第1章 初识强化学习
1.1 强化学习及其关键元素
1.2 强化学习的应用
1.3 智能体/环境接口
1.4 强化学习的分类
1.5 强化学习算法的性能指标
1.6 案例:基于Gym库的智能体/环境接口
- APP免费
1.7 本章小结
- APP免费
1.8 练习与模拟面试
- APP免费
第2章 Markov决策过程
- APP免费
2.1 Markov决策过程模型
- APP免费
2.2 价值
- APP免费
2.3 带折扣的分布
- APP免费
2.4 最优策略与最优价值
- APP免费
2.5 案例:悬崖寻路
- APP免费
2.6 本章小结
- APP免费
2.7 练习与模拟面试
- APP免费
第3章 有模型数值迭代
- APP免费
3.1 Bellman算子及其性质
- APP免费
3.2 有模型策略迭代
- APP免费
3.3 价值迭代
- APP免费
3.4 自益与动态规划
- APP免费
3.5 案例:冰面滑行
- APP免费
3.6 本章小结
- APP免费
3.7 练习与模拟面试
- APP免费
第4章 回合更新价值迭代
- APP免费
4.1 同策回合更新
- APP免费
4.2 异策回合更新
- APP免费
4.3 实验:21点游戏
- APP免费
4.4 本章小结
- APP免费
4.5 练习与模拟面试
- APP免费
第5章 时序差分价值迭代
- APP免费
5.1 时序差分目标
- APP免费
5.2 同策时序差分更新
- APP免费
5.3 异策时序差分更新
- APP免费
5.4 资格迹
- APP免费
5.5 案例:的士调度
- APP免费
5.6 本章小结
- APP免费
5.7 练习与模拟面试
- APP免费
第6章 函数近似方法
- APP免费
6.1 函数近似原理
- APP免费
6.2 基于梯度的参数更新
- APP免费
6.3 函数近似的收敛性
- APP免费
6.4 深度Q网络
- APP免费
6.5 案例:小车上山
- APP免费
6.6 本章小结
- APP免费
6.7 练习与模拟面试
- APP免费
第7章 回合更新策略梯度方法
- APP免费
7.1 策略梯度算法的原理
- APP免费
7.2 同策回合更新策略梯度算法
- APP免费
7.3 异策回合更新策略梯度算法
- APP免费
7.4 案例:车杆平衡
- APP免费
7.5 本章小结
- APP免费
7.6 练习与模拟面试
- APP免费
第8章 执行者/评论者
- APP免费
8.1 执行者/评论者方法
- APP免费
8.2 同策执行者/评论者算法
- APP免费
8.3 基于代理优势的同策算法
- APP免费
8.4 自然梯度和信赖域算法
- APP免费
8.5 重要性采样异策执行者/评论者算法
- APP免费
8.6 案例:双节倒立摆
- APP免费
8.7 本章小结
- APP免费
8.8 练习与模拟面试
- APP免费
第9章 连续动作空间的确定性策略
- APP免费
9.1 确定性策略梯度定理
- APP免费
9.2 同策确定性算法
- APP免费
9.3 异策确定性算法
- APP免费
9.4 探索过程
- APP免费
9.5 案例:倒立摆的控制
- APP免费
9.6 本章小结
- APP免费
9.7 练习与模拟面试
- APP免费
第10章 最大熵强化学习
- APP免费
10.1 最大熵强化学习与柔性强化学习理论
- APP免费
10.2 柔性强化学习算法
- APP免费
10.3 自动熵调节
- APP免费
10.4 案例:月球登陆器
- APP免费
10.5 本章小结
- APP免费
10.6 练习与模拟面试
- APP免费
第11章 基于策略的无梯度算法
- APP免费
11.1 无梯度算法
- APP免费
11.2 无梯度算法和策略梯度算法的比较
- APP免费
11.3 案例:双足机器人
- APP免费
11.4 本章小结
- APP免费
11.5 练习与模拟面试
- APP免费
第12章 值分布强化学习
- APP免费
12.1 价值分布及其性质
- APP免费
12.2 效用最大化强化学习
- APP免费
12.3 基于概率分布的算法
- APP免费
12.4 基于分位数的值分布强化学习
- APP免费
12.5 类别深度Q网络算法和分位数回归算法的比较
- APP免费
12.6 案例:Atari电动游戏Pong
- APP免费
12.7 本章小结
- APP免费
12.8 练习与模拟面试
- APP免费
第13章 最小化遗憾
- APP免费
13.1 遗憾
- APP免费
13.2 多臂赌博机
- APP免费
13.3 置信上界价值迭代
- APP免费
13.4 案例:Bernoulli奖励多臂赌博机
- APP免费
13.5 本章小结
- APP免费
13.6 练习与模拟面试
- APP免费
第14章 树搜索
- APP免费
14.1 回合更新树搜索
- APP免费
14.2 回合更新树搜索在棋盘游戏中的应用
- APP免费
14.3 案例:井字棋
- APP免费
14.4 本章小结
- APP免费
14.5 练习与模拟面试
- APP免费
第15章 模仿学习和人类反馈强化学习
- APP免费
15.1 模仿学习
- APP免费
15.2 人类反馈强化学习和生成性预训练变换模型
- APP免费
15.3 案例:机器人行走
- APP免费
15.4 本章小结
- APP免费
15.5 练习与模拟面试
- APP免费
第16章 更多智能体/环境接口模型
- APP免费
16.1 平均奖励离散时间Markov决策过程
- APP免费
16.2 连续时间Markov决策过程
- APP免费
16.3 非齐次Markov决策过程
- APP免费
16.4 半Markov决策过程
- APP免费
16.5 部分可观测Markov决策过程
- APP免费
16.6 案例:老虎
- APP免费
16.7 本章小结
- APP免费
16.8 练习与模拟面试
- APP免费
作者简介
- APP免费
封底
更新时间:2023-10-19 17:44:38