暂无评论
图文详情
- ISBN:9787118131796
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:176
- 出版时间:2024-06-01
- 条形码:9787118131796 ; 978-7-118-13179-6
内容简介
本书主要内容包括:介绍了强化学习的基本概念,如智能体、环境、状态、奖励、动作等;介绍了强化学习的数学和算法原理,如马尔可夫决策过程和贝尔曼方程,并在此基础上讨论了动态规划、值迭代和策略迭代方法;介绍了强化学习的估计与控制问题,并通过实例展示了Q学习的编程;深入探讨了深度学习的概念、架构机制,通过介绍激活函数、损失函数、优化器、卷积层、池化层、全连接层等概念,为后续章节与强化学习算法相结合作铺垫。
目录
第1章 强化学习简介:AI智能体背后的智能
1.1 什么是人工智能,强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章 强化学习的数学和算法理解:马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章 编码环境和马尔可夫决策过程的求解:编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章 时序差分学习、SARSA和Q学习:几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分(TD)学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法(赌博机算法)
4.7 小结
第5章 Q学习编程:Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章 深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络(DNN)
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章 可运用的资源:训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章 深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章 双DQN的代码:用£衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码(文件:DoubleDQN.py)
9.3 训练统计图
第10章 基于策略的强化学习方法:随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章 演员-评论家模型和A3C:异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现(A3C)
11.5 (同步)优势演员-评论家实现(A2C)
11.6 小结
第12章 A3C的代码:编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码(A3C_Master—File:a3c_master.py)
12.3 训练统计图
第13章 确定性策略梯度和DDPG:基于确定性策略梯度的方法
13.1 确定性策略梯度(DPG)
13.2 深度确定性策略梯度(DDPG)
13.3 小结
第14章 DDPG的代码:使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous(Gym)环境
14.3 项目结构和依赖关系
14.4 代码(文件:ddpg_continout_action.py)
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献
1.1 什么是人工智能,强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章 强化学习的数学和算法理解:马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章 编码环境和马尔可夫决策过程的求解:编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章 时序差分学习、SARSA和Q学习:几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分(TD)学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法(赌博机算法)
4.7 小结
第5章 Q学习编程:Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章 深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络(DNN)
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章 可运用的资源:训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章 深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章 双DQN的代码:用£衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码(文件:DoubleDQN.py)
9.3 训练统计图
第10章 基于策略的强化学习方法:随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章 演员-评论家模型和A3C:异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现(A3C)
11.5 (同步)优势演员-评论家实现(A2C)
11.6 小结
第12章 A3C的代码:编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码(A3C_Master—File:a3c_master.py)
12.3 训练统计图
第13章 确定性策略梯度和DDPG:基于确定性策略梯度的方法
13.1 确定性策略梯度(DPG)
13.2 深度确定性策略梯度(DDPG)
13.3 小结
第14章 DDPG的代码:使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous(Gym)环境
14.3 项目结构和依赖关系
14.4 代码(文件:ddpg_continout_action.py)
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献
展开全部
作者简介
吴敏杰,博士,92728部队助理研究员。2012年获南京航空航天大学学士学位,2014年和2018年分别获国防科技大学硕士、博士学位。以 作者通信作者共发表论文十余篇,其中SCI检索4篇,EI检索6篇。
本类五星书
浏览历史
本类畅销
-
造神:人工智能神话的起源和破除 (精装)
¥32.7¥88.0 -
大数据技术导论(第2版)
¥28.9¥41.0 -
人工智能
¥20.3¥55.0 -
人人都能学AI
¥40.4¥68.0 -
数据结构基础(C语言版)(第2版)
¥41.7¥49.0 -
系统架构设计师教程(第2版)(全国计算机技术与软件专业技术资格(水平)考试指定用
¥102.7¥158.0 -
过程控制技术(第2版高职高专规划教材)
¥27.6¥38.0 -
WPS OFFICE完全自学教程(第2版)
¥97.3¥139.0 -
智能视频目标检测与识别技术
¥43.5¥59.0 -
人工智能基础及应用
¥36.0¥48.0 -
深入浅出软件架构
¥117.2¥186.0 -
工业互联网安全创新技术及应用
¥79.4¥128.0 -
计算机网络基础(微课版)
¥39.0¥55.0 -
零信任架构
¥62.4¥89.0 -
剪映:即梦AI绘画与视频制作从新手到高手
¥66.0¥89.0 -
红蓝攻防 技术与策略(原书第3版)
¥95.9¥139.0 -
Web前端开发基础
¥37.5¥57.0 -
软件设计的哲学(第2版)
¥52.0¥69.8 -
人工智能的底层逻辑
¥58.7¥79.0 -
软件工程理论与案例
¥63.4¥99.0