暂无评论
图文详情
- ISBN:9787121476617
- 装帧:暂无
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:280
- 出版时间:2024-04-01
- 条形码:9787121476617 ; 978-7-121-47661-7
内容简介
本书详细介绍了强化学习的理论推导、算法细节。全书共12章,包括强化学习概述、马尔可夫决策过程、退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰,内容简明通俗。除了侧重于理论推导,本书还提供了许多便于读者理解的例子,以及大量被实践证明有效的算法技巧,旨在帮助读者进一步了解强化学习领域的相关知识,提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材,但需要有机器学习、深度学习等前置课程作为基础。
目录
第1章 绪论 1
1.1 强化学习是什么 1
1.2 强化学习的基本思想 3
1.2.1 从环境中产生数据 3
1.2.2 求解*优策略 5
1.3 强化学习为什么重要 6
1.4 本书内容介绍 9
参考文献 10
第2章 马尔可夫决策过程 11
2.1 马尔可夫过程 11
2.2 马尔可夫决策过程的定义 12
2.3 马尔可夫过程与马尔可夫决策过程的对比 15
2.4 马尔可夫决策过程的分类 15
2.4.1 马尔可夫决策过程是否发生退化 16
2.4.2 环境是否已知 17
2.4.3 环境的确定性与随机性 18
2.4.4 马尔可夫决策过程的时齐性 20
2.4.5 状态与动作的连续性 22
*2.4.6 时间的连续性 23
2.4.7 小结 24
2.5 马尔可夫决策过程的奖励函数 25
思考题 26
参考文献 27
第3章 退化的强化学习问题 28
3.1 盲盒售货机问题 28
3.2 探索-利用困境 31
3.3 各种不同的探索策略 33
3.3.1 -贪心策略 33
3.3.2 玻尔兹曼探索策略 35
3.3.3 上置信界策略 36
3.4 总结 36
思考题 37
参考文献 37
第4章 *优控制 38
4.1 基于价值的思想 38
4.1.1 三连棋游戏策略 38
4.1.2 价值的定义 42
4.1.3 基于价值和基于策略 45
4.1.4 小结 46
思考题 47
4.2 动态规划 47
4.2.1 策略迭代法 47
4.2.2 雅可比迭代法 48
4.2.3 值迭代法 50
4.2.4 软提升 51
4.2.5 小结 53
思考题 54
4.3 LQR控制 55
4.3.1 基本LQR控制问题 55
4.3.2 LQR控制器 56
*4.3.3 环境随机的LQR控制问题 59
4.3.4 iLQR控制器 61
4.3.5 实时规划 63
4.3.6 小结 64
思考题 65
4.4 总结 65
参考文献 66
第5章 基于价值的强化学习 68
5.1 Q-Learning 68
5.1.1 Q表格 69
5.1.2 产生数据集的方式:探索与利用 69
5.1.3 探索策略 71
5.1.4 使用训练数据的方法:经验回放 73
思考题 74
5.2 Sarsa 74
5.2.1 基本Sarsa算法 74
5.2.2 同策略与异策略 76
5.2.3 n步Sarsa 77
5.2.4 -return算法 78
*5.2.5 n步Q-Learning 79
思考题 80
5.3 DQN及其变体 81
5.3.1 固定Q目标结构 81
5.3.2 双重DQN 84
5.3.3 优先回放机制 86
5.3.4 优势函数 88
5.3.5 Dueling DQN 90
*5.3.6 Rainbow 92
思考题 94
*5.4 NAF 94
*5.4.1 标准化优势函数 94
*5.4.2 NAF的训练 96
5.5 总结:基于价值的强化学习算法 97
参考文献 98
第6章 策略函数与策略梯度 100
6.1 策略函数与期望回报 100
6.2 无梯度方法 101
6.2.1 增强随机搜索 102
6.2.2 交叉熵算法 104
6.2.3 进化算法 104
6.3 策略梯度 106
6.3.1 策略网络的构造 106
6.3.2 策略梯度的计算 108
6.3.3 基本策略梯度算法 111
*6.3.4 动作连续的策略梯度 113
6.4 策略梯度的训练技巧 114
6.4.1 基准法 114
6.4.2 经验回放 116
6.4.3 探索策略 118
6.5 总结 119
思考题 120
参考文献 121
第7章 AC算法 122
7.1 基本AC算法 122
7.1.1 AC算法的出发点 122
7.1.2 化简策略梯度公式 123
7.1.3 AC算法的基本思想 126
7.1.4 单步更新与回合更新 128
思考题 129
7.2 AC算法的训练技巧 129
7.2.1 广义优势函数估计 129
7.2.2 控制训练两个网络的步调 131
7.2.3 ACER 133
思考题 134
7.3 A3C与A2C 135
7.3.1 并行训练 135
7.3.2 A3C 137
7.3.3 A2C 140
思考题 141
参考文献 141
第8章 AC型算法 143
8.1 自然梯度法 143
8.1.1 牛顿法 144
8.1.2 信赖域方法 146
8.1.3 近似点法 146
*8.1.4 自然策略梯度 147
8.2 TRPO与PPO算法 149
8.2.1 策略提升 149
8.2.2 TRPO算法 151
8.2.3 PPO算法 152
8.2.4 TRPO与PPO算法的训练技巧 155
8.2.5 小结 156
思考题 157
8.3 DDPG 157
8.3.1 动作连续问题的网络结构 158
8.3.2 从基于价值的角度理解DDPG算法 158
8.3.3 DDPG算法及训练技巧 159
8.3.4 确定策略下的策略梯度 162
8.3.5 从基于策略的角度理解DDPG算法 163
思考题 165
*8.4 Soft AC 165
8.5 总结:基于策略的算法 168
8.5.1 基于价值和基于策略 169
8.5.2 偏差-方差取舍 170
8.5.3 策略的空间 172
8.5.4 训练数据的产生与使用 172
8.5.5 小结 173
参考文献 174
第9章 基于模型的基本思想 175
9.1 MBRL概述 175
9.2 模型是什么 177
9.2.1 各种模型及其基本用法 178
9.2.2 更多的模型变体 179
9.2.3 模型的一些特点 180
*9.2.4 对模型的理解 185
思考题 188
9.3 如何使用黑盒模型 189
9.3.1 用黑盒模型增广数据 189
9.3.2 权衡数据成本与准确性 191
9.3.3 黑盒模型的其他用途 193
9.3.4 小结 194
思考题 194
9.4 如何使用白盒模型 195
9.4.1 用白盒模型辅助进行策略优化 195
9.4.2 用白盒模型解*优控制 197
9.4.3 小结 199
思考题 199
参考文献 200
第10章 基于模型的强化学习进阶 202
10.1 如何学习模型 202
10.1.1 让学习更符合*终目标 202
10.1.2 让学习本身成为目标 203
10.1.3 以学习作为唯一目标 206
10.1.4 小结 209
思考题 209
10.2 世界模型 210
10.2.1 观察 210
10.2.2 POMDP 212
10.2.3 为世界建模 214
10.2.4 Dreamer 218
思考题 220
10.3 实时规划 221
10.3.1 实时规划的基本思想 221
10.3.2 蒙特卡洛树搜索 224
10.3.3 模型预测控制 230
思考题 233
10.4 MBRL算法思想总结 233
参考文献 235
*第11章 连续时间的*优控制 238
11.1 时间连续的*优控制问题 238
11.2 H-J-B方程 239
11.2.1 连续时间的贝尔曼方程 239
*11.2.2 用H-J-B方程求解LQR控制问题 242
11.2.3 总结:关于价值的方程 245
思考题 247
*11.3 变分原理 247
11.3.1 从有穷维空间到无穷维空间 247
11.3.2 变分问题 250
*11.3.3 欧拉-拉格朗日方程 252
*11.3.4 用变分法求解*优控制问题 255
11.3.5 总结:策略的*优化 257
思考题 258
参考文献 258
*第12章 其他强化学习相关内容 259
12.1 奖励函数的改造与混合 259
12.2 逆向强化学习 261
12.3 层次强化学习 262
12.4 离线强化学习 264
参考文献 266
展开全部
作者简介
余欣航,本科毕业于北京大学数学科学院,广东交通数据中心算法主要负责人,using.ai早期合伙人,广东联合电子资深工程师,主要研究方向为机器学习、强化学习以及其在智能制造、智慧交通等领域的应用。科幻作家,代表作为《情诗恋曲》、《疑云龙影》、《一中攻防战》等
本类五星书
浏览历史
本类畅销
-
造神:人工智能神话的起源和破除 (精装)
¥32.7¥88.0 -
大数据技术导论(第2版)
¥28.9¥41.0 -
人工智能
¥20.3¥55.0 -
人人都能学AI
¥40.4¥68.0 -
数据结构基础(C语言版)(第2版)
¥41.7¥49.0 -
系统架构设计师教程(第2版)(全国计算机技术与软件专业技术资格(水平)考试指定用
¥102.7¥158.0 -
过程控制技术(第2版高职高专规划教材)
¥27.6¥38.0 -
WPS OFFICE完全自学教程(第2版)
¥97.3¥139.0 -
智能视频目标检测与识别技术
¥43.5¥59.0 -
人工智能基础及应用
¥36.0¥48.0 -
深入浅出软件架构
¥117.2¥186.0 -
工业互联网安全创新技术及应用
¥79.4¥128.0 -
计算机网络基础(微课版)
¥39.0¥55.0 -
零信任架构
¥62.4¥89.0 -
剪映:即梦AI绘画与视频制作从新手到高手
¥66.0¥89.0 -
红蓝攻防 技术与策略(原书第3版)
¥95.9¥139.0 -
Web前端开发基础
¥37.5¥57.0 -
软件设计的哲学(第2版)
¥52.0¥69.8 -
人工智能的底层逻辑
¥58.7¥79.0 -
软件工程理论与案例
¥63.4¥99.0