包邮强化学习

1星价 ¥52.7 (7.6折)

2星价￥52.7 定价￥69.8

作者：余欣航

出版社：电子工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787121476617
装帧：暂无
册数：暂无
重量：暂无
开本：16开
页数：280
出版时间：2024-04-01
条形码：9787121476617 ; 978-7-121-47661-7

内容简介

本书详细介绍了强化学习的理论推导、算法细节。全书共12章，包括强化学习概述、马尔可夫决策过程、退化的强化学习问题、环境已知的强化学习问题、基于价值的强化学习算法、基于策略的强化学习算法、AC型算法、基于模型的强化学习算法等相关知识。本书系统性强、概念清晰，内容简明通俗。除了侧重于理论推导，本书还提供了许多便于读者理解的例子，以及大量被实践证明有效的算法技巧，旨在帮助读者进一步了解强化学习领域的相关知识，提升其现实中的工程能力。本书可作为高等院校数学、计算机、人工智能等相关专业的强化学习教材，但需要有机器学习、深度学习等前置课程作为基础。

第1章绪论 1 1.1 强化学习是什么 1 1.2 强化学习的基本思想 3 1.2.1 从环境中产生数据 3 1.2.2 求解*优策略 5 1.3 强化学习为什么重要 6 1.4 本书内容介绍 9 参考文献 10 第2章马尔可夫决策过程 11 2.1 马尔可夫过程 11 2.2 马尔可夫决策过程的定义 12 2.3 马尔可夫过程与马尔可夫决策过程的对比 15 2.4 马尔可夫决策过程的分类 15 2.4.1 马尔可夫决策过程是否发生退化 16 2.4.2 环境是否已知 17 2.4.3 环境的确定性与随机性 18 2.4.4 马尔可夫决策过程的时齐性 20 2.4.5 状态与动作的连续性 22 *2.4.6 时间的连续性 23 2.4.7 小结 24 2.5 马尔可夫决策过程的奖励函数 25 思考题 26 参考文献 27 第3章退化的强化学习问题 28 3.1 盲盒售货机问题 28 3.2 探索-利用困境 31 3.3 各种不同的探索策略 33 3.3.1 -贪心策略 33 3.3.2 玻尔兹曼探索策略 35 3.3.3 上置信界策略 36 3.4 总结 36 思考题 37 参考文献 37 第4章 *优控制 38 4.1 基于价值的思想 38 4.1.1 三连棋游戏策略 38 4.1.2 价值的定义 42 4.1.3 基于价值和基于策略 45 4.1.4 小结 46 思考题 47 4.2 动态规划 47 4.2.1 策略迭代法 47 4.2.2 雅可比迭代法 48 4.2.3 值迭代法 50 4.2.4 软提升 51 4.2.5 小结 53 思考题 54 4.3 LQR控制 55 4.3.1 基本LQR控制问题 55 4.3.2 LQR控制器 56 *4.3.3 环境随机的LQR控制问题 59 4.3.4 iLQR控制器 61 4.3.5 实时规划 63 4.3.6 小结 64 思考题 65 4.4 总结 65 参考文献 66 第5章基于价值的强化学习 68 5.1 Q-Learning 68 5.1.1 Q表格 69 5.1.2 产生数据集的方式：探索与利用 69 5.1.3 探索策略 71 5.1.4 使用训练数据的方法：经验回放 73 思考题 74 5.2 Sarsa 74 5.2.1 基本Sarsa算法 74 5.2.2 同策略与异策略 76 5.2.3 n步Sarsa 77 5.2.4 -return算法 78 *5.2.5 n步Q-Learning 79 思考题 80 5.3 DQN及其变体 81 5.3.1 固定Q目标结构 81 5.3.2 双重DQN 84 5.3.3 优先回放机制 86 5.3.4 优势函数 88 5.3.5 Dueling DQN 90 *5.3.6 Rainbow 92 思考题 94 *5.4 NAF 94 *5.4.1 标准化优势函数 94 *5.4.2 NAF的训练 96 5.5 总结：基于价值的强化学习算法 97 参考文献 98 第6章策略函数与策略梯度 100 6.1 策略函数与期望回报 100 6.2 无梯度方法 101 6.2.1 增强随机搜索 102 6.2.2 交叉熵算法 104 6.2.3 进化算法 104 6.3 策略梯度 106 6.3.1 策略网络的构造 106 6.3.2 策略梯度的计算 108 6.3.3 基本策略梯度算法 111 *6.3.4 动作连续的策略梯度 113 6.4 策略梯度的训练技巧 114 6.4.1 基准法 114 6.4.2 经验回放 116 6.4.3 探索策略 118 6.5 总结 119 思考题 120 参考文献 121 第7章 AC算法 122 7.1 基本AC算法 122 7.1.1 AC算法的出发点 122 7.1.2 化简策略梯度公式 123 7.1.3 AC算法的基本思想 126 7.1.4 单步更新与回合更新 128 思考题 129 7.2 AC算法的训练技巧 129 7.2.1 广义优势函数估计 129 7.2.2 控制训练两个网络的步调 131 7.2.3 ACER 133 思考题 134 7.3 A3C与A2C 135 7.3.1 并行训练 135 7.3.2 A3C 137 7.3.3 A2C 140 思考题 141 参考文献 141 第8章 AC型算法 143 8.1 自然梯度法 143 8.1.1 牛顿法 144 8.1.2 信赖域方法 146 8.1.3 近似点法 146 *8.1.4 自然策略梯度 147 8.2 TRPO与PPO算法 149 8.2.1 策略提升 149 8.2.2 TRPO算法 151 8.2.3 PPO算法 152 8.2.4 TRPO与PPO算法的训练技巧 155 8.2.5 小结 156 思考题 157 8.3 DDPG 157 8.3.1 动作连续问题的网络结构 158 8.3.2 从基于价值的角度理解DDPG算法 158 8.3.3 DDPG算法及训练技巧 159 8.3.4 确定策略下的策略梯度 162 8.3.5 从基于策略的角度理解DDPG算法 163 思考题 165 *8.4 Soft AC 165 8.5 总结：基于策略的算法 168 8.5.1 基于价值和基于策略 169 8.5.2 偏差-方差取舍 170 8.5.3 策略的空间 172 8.5.4 训练数据的产生与使用 172 8.5.5 小结 173 参考文献 174 第9章基于模型的基本思想 175 9.1 MBRL概述 175 9.2 模型是什么 177 9.2.1 各种模型及其基本用法 178 9.2.2 更多的模型变体 179 9.2.3 模型的一些特点 180 *9.2.4 对模型的理解 185 思考题 188 9.3 如何使用黑盒模型 189 9.3.1 用黑盒模型增广数据 189 9.3.2 权衡数据成本与准确性 191 9.3.3 黑盒模型的其他用途 193 9.3.4 小结 194 思考题 194 9.4 如何使用白盒模型 195 9.4.1 用白盒模型辅助进行策略优化 195 9.4.2 用白盒模型解*优控制 197 9.4.3 小结 199 思考题 199 参考文献 200 第10章基于模型的强化学习进阶 202 10.1 如何学习模型 202 10.1.1 让学习更符合*终目标 202 10.1.2 让学习本身成为目标 203 10.1.3 以学习作为唯一目标 206 10.1.4 小结 209 思考题 209 10.2 世界模型 210 10.2.1 观察 210 10.2.2 POMDP 212 10.2.3 为世界建模 214 10.2.4 Dreamer 218 思考题 220 10.3 实时规划 221 10.3.1 实时规划的基本思想 221 10.3.2 蒙特卡洛树搜索 224 10.3.3 模型预测控制 230 思考题 233 10.4 MBRL算法思想总结 233 参考文献 235 *第11章连续时间的*优控制 238 11.1 时间连续的*优控制问题 238 11.2 H-J-B方程 239 11.2.1 连续时间的贝尔曼方程 239 *11.2.2 用H-J-B方程求解LQR控制问题 242 11.2.3 总结：关于价值的方程 245 思考题 247 *11.3 变分原理 247 11.3.1 从有穷维空间到无穷维空间 247 11.3.2 变分问题 250 *11.3.3 欧拉-拉格朗日方程 252 *11.3.4 用变分法求解*优控制问题 255 11.3.5 总结：策略的*优化 257 思考题 258 参考文献 258 *第12章其他强化学习相关内容 259 12.1 奖励函数的改造与混合 259 12.2 逆向强化学习 261 12.3 层次强化学习 262 12.4 离线强化学习 264 参考文献 266

展开全部