×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
暂无评论
图文详情
  • ISBN:9787118131796
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:176
  • 出版时间:2024-06-01
  • 条形码:9787118131796 ; 978-7-118-13179-6

内容简介

本书主要内容包括:介绍了强化学习的基本概念,如智能体、环境、状态、奖励、动作等;介绍了强化学习的数学和算法原理,如马尔可夫决策过程和贝尔曼方程,并在此基础上讨论了动态规划、值迭代和策略迭代方法;介绍了强化学习的估计与控制问题,并通过实例展示了Q学习的编程;深入探讨了深度学习的概念、架构机制,通过介绍激活函数、损失函数、优化器、卷积层、池化层、全连接层等概念,为后续章节与强化学习算法相结合作铺垫。

目录

第1章 强化学习简介:AI智能体背后的智能
1.1 什么是人工智能,强化学习与它有什么关系
1.2 理解强化学习的基本设计
1.3 强化学习中的奖励和确定一个合适的奖励函数所涉及的问题
1.4 强化学习的状态
1.5 强化学习中的智能体
1.6 小结
第2章 强化学习的数学和算法理解:马尔可夫决策过程与解决方法
2.1 马尔可夫决策过程
2.2 贝尔曼方程
2.3 动态规划和贝尔曼方程
2.4 价值迭代和策略迭代方法
2.5 小结
第3章 编码环境和马尔可夫决策过程的求解:编码环境、价值迭代和策略迭代算法
3.1 以网格世界问题为例
3.2 构建环境
3.3 平台要求和代码的工程架构
3.4 创建网格世界环境的代码
3.5 基于价值迭代方法求解网格世界的代码
3.6 基于策略迭代方法求解网格世界的代码
3.7 小结
第4章 时序差分学习、SARSA和Q学习:几种常用的基于值逼近的强化学习方法
4.1 经典DP的挑战
4.2 基于模型和无模型的方法
4.3 时序差分(TD)学习
4.4 SARSA
4.5 Q学习
4.6 决定“探索”和“利用”之间概率的算法(赌博机算法)
4.7 小结
第5章 Q学习编程:Q学习智能体和行为策略编程
5.1 工程结构与依赖项
5.2 代码
5.3 训练统计图
第6章 深度学习简介
6.1 人工神经元——深度学习的基石
6.2 前馈深度神经网络(DNN)
6.3 深度学习中的架构注意事项
6.4 卷积神经网络——用于视觉深度学习
6.5 小结
第7章 可运用的资源:训练环境和智能体实现库
7.1 你并不孤单
7.2 标准化的训练环境和平台
7.3 Agent开发与实现库
第8章 深度Q网络、双DQN和竞争DQN
8.1 通用人工智能
8.2 Google“Deep Mind”和“AlphaGo”简介
8.3 DQN算法
8.4 双DQN算法
8.5 竞争DQN算法
8.6 小结
第9章 双DQN的代码:用£衰减行为策略编码双DQN
9.1 项目结构和依赖关系
9.2 双DQN智能体的代码(文件:DoubleDQN.py)
9.3 训练统计图
第10章 基于策略的强化学习方法:随机策略梯度与REINFORCE算法
10.1 基于策略的方法和策略近似介绍
10.2 基于价值的方法和基于策略的方法的广义区别
10.3 计算策略梯度的问题
10.4 REINFORCE算法
10.5 REINFORCE算法中减少方差的方法
10.6 为REINFORCE算法选择基线
10.7 小结
第11章 演员-评论家模型和A3C:异步优势演员-评论家模型
11.1 演员-评论家方法简介
11.2 演员-评论家方法的概念设计
11.3 演员-评论家实现的架构
11.4 异步优势行动者-评论家实现(A3C)
11.5 (同步)优势演员-评论家实现(A2C)
11.6 小结
第12章 A3C的代码:编写异步优势演员-评论家代码
12.1 项目结构和依赖关系
12.2 代码(A3C_Master—File:a3c_master.py)
12.3 训练统计图
第13章 确定性策略梯度和DDPG:基于确定性策略梯度的方法
13.1 确定性策略梯度(DPG)
13.2 深度确定性策略梯度(DDPG)
13.3 小结
第14章 DDPG的代码:使用高级封装的库编写DDPG的代码
14.1 用于强化学习的高级封装的库
14.2 Mountain Car Continuous(Gym)环境
14.3 项目结构和依赖关系
14.4 代码(文件:ddpg_continout_action.py)
14.5 智能体使用“MountainCarContinous-v0”环境
参考文献
展开全部

作者简介

吴敏杰,博士,92728部队助理研究员。2012年获南京航空航天大学学士学位,2014年和2018年分别获国防科技大学硕士、博士学位。以 作者通信作者共发表论文十余篇,其中SCI检索4篇,EI检索6篇。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航