暂无评论
图文详情
- ISBN:9787118131796
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:176
- 出版时间:2024-06-01
- 条形码:9787118131796 ; 978-7-118-13179-6
内容简介
本书主要内容包括:介绍了强化学习的基本概念,如智能体、环境、状态、奖励、动作等;介绍了强化学习的数学和算法原理,如马尔可夫决策过程和贝尔曼方程,并在此基础上讨论了动态规划、值迭代和策略迭代方法;介绍了强化学习的估计与控制问题,并通过实例展示了Q学习的编程;深入探讨了深度学习的概念、架构机制,通过介绍激活函数、损失函数、优化器、卷积层、池化层、全连接层等概念,为后续章节与强化学习算法相结合作铺垫。
目录
第1章 强化学习简介:AI智能体背后的智能
1.1 什么是人工智能,强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章 强化学习的数学和算法理解:马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章 编码环境和马尔可夫决策过程的求解:编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章 时序差分学习、SARSA和Q学习:几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分(TD)学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法(赌博机算法)
4.7 小结
第5章 Q学习编程:Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章 深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络(DNN)
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章 可运用的资源:训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章 深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章 双DQN的代码:用£衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码(文件:DoubleDQN.py)
9.3 训练统计图
第10章 基于策略的强化学习方法:随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章 演员-评论家模型和A3C:异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现(A3C)
11.5 (同步)优势演员-评论家实现(A2C)
11.6 小结
第12章 A3C的代码:编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码(A3C_Master—File:a3c_master.py)
12.3 训练统计图
第13章 确定性策略梯度和DDPG:基于确定性策略梯度的方法
13.1 确定性策略梯度(DPG)
13.2 深度确定性策略梯度(DDPG)
13.3 小结
第14章 DDPG的代码:使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous(Gym)环境
14.3 项目结构和依赖关系
14.4 代码(文件:ddpg_continout_action.py)
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献
1.1 什么是人工智能,强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章 强化学习的数学和算法理解:马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章 编码环境和马尔可夫决策过程的求解:编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章 时序差分学习、SARSA和Q学习:几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分(TD)学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法(赌博机算法)
4.7 小结
第5章 Q学习编程:Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章 深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络(DNN)
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章 可运用的资源:训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章 深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章 双DQN的代码:用£衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码(文件:DoubleDQN.py)
9.3 训练统计图
第10章 基于策略的强化学习方法:随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章 演员-评论家模型和A3C:异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现(A3C)
11.5 (同步)优势演员-评论家实现(A2C)
11.6 小结
第12章 A3C的代码:编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码(A3C_Master—File:a3c_master.py)
12.3 训练统计图
第13章 确定性策略梯度和DDPG:基于确定性策略梯度的方法
13.1 确定性策略梯度(DPG)
13.2 深度确定性策略梯度(DDPG)
13.3 小结
第14章 DDPG的代码:使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous(Gym)环境
14.3 项目结构和依赖关系
14.4 代码(文件:ddpg_continout_action.py)
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献
展开全部
作者简介
吴敏杰,博士,92728部队助理研究员。2012年获南京航空航天大学学士学位,2014年和2018年分别获国防科技大学硕士、博士学位。以 作者通信作者共发表论文十余篇,其中SCI检索4篇,EI检索6篇。
本类五星书
本类畅销
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0