包邮深度强化学习

1星价 ¥54.4 (6.1折)

2星价￥54.4 定价￥89.0

作者：(印)莫希特·塞瓦克著尹大伟,吴敏杰

出版社：国防工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787118131796
装帧：平装-胶订
册数：暂无
重量：暂无
开本：16开
页数：176
出版时间：2024-06-01
条形码：9787118131796 ; 978-7-118-13179-6

内容简介

本书主要内容包括：介绍了强化学习的基本概念，如智能体、环境、状态、奖励、动作等；介绍了强化学习的数学和算法原理，如马尔可夫决策过程和贝尔曼方程，并在此基础上讨论了动态规划、值迭代和策略迭代方法；介绍了强化学习的估计与控制问题，并通过实例展示了Q学习的编程；深入探讨了深度学习的概念、架构机制，通过介绍激活函数、损失函数、优化器、卷积层、池化层、全连接层等概念，为后续章节与强化学习算法相结合作铺垫。

第1章强化学习简介：AI智能体背后的智能
1.1 什么是人工智能，强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章强化学习的数学和算法理解：马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章编码环境和马尔可夫决策过程的求解：编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章时序差分学习、SARSA和Q学习：几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分（TD）学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法（赌博机算法）
4.7 小结
第5章 Q学习编程：Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络（DNN）
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章可运用的资源：训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章双DQN的代码：用￡衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码（文件：DoubleDQN.py）
9.3 训练统计图
第10章基于策略的强化学习方法：随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章演员-评论家模型和A3C：异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现（A3C）
11.5 （同步）优势演员-评论家实现（A2C）
11.6 小结
第12章 A3C的代码：编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码（A3C_Master—File：a3c_master.py）
12.3 训练统计图
第13章确定性策略梯度和DDPG：基于确定性策略梯度的方法
13.1 确定性策略梯度（DPG）
13.2 深度确定性策略梯度（DDPG）
13.3 小结
第14章 DDPG的代码：使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous（Gym）环境
14.3 项目结构和依赖关系
14.4 代码（文件：ddpg_continout_action.py）
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献

展开全部