- ISBN:9787302625544
- 装帧:70g胶版纸
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:368
- 出版时间:2023-03-01
- 条形码:9787302625544 ; 978-7-302-62554-4
本书特色
本书系统介绍深度强化学习的理论和算法,并配有大量的案例。全书核心内容可以分为3部分,**部分为经典强化学习,主要内容有动态规划法,蒙特卡洛法、时序差分法;第二部分为深度强化学习,主要内容有值函数近似法、策略梯度法、策略梯度法进阶;第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。 ★ 大多数每个算法配有一个或多个测试案例,便于读者理解理论和算法;★ 每个案例都配有编程实现的代码,便于读者理论联系实际,并亲自上手实践;★ 为减轻读者编写代码的难度,本书所有案例的代码都是可以独立运行的,并且尽量减少了对依赖包的使用。 全面介绍深度强化学习的理论与算法,并配有大量案例和编程实现!1553分钟视频讲解,50个示例代码★监督学习、非监督学习、强化学习是机器学习的三大板块,其中强化学习是*接近人工智能的机器学习模式。近年来,随着AlphaGo系列算法的横空出世,结合深度学习和强化学习的深度强化学习被推到了人工智能的风口浪尖,受到了学界和工业界的广泛关注。本书系统介绍了深度强化学习的理论和算法,并配有大量深度强化学习案例和编程实现,既可用作高年级本科生和研究生学习深度强化学习的入门书,也可用作工程技术人员应用深度强化学习解决实际问题的参考书。 ——吴至友 重庆师范大学数学科学学院院长、德国洪堡学者★作为第4次工业革命的核心技术,人工智能正在驱动各行各业的智能化升级,并将催生很多新的产业。深度强化学习作为人工智能的典型研究和应用方向之一,近年来取得了突飞猛进的发展,并已广泛应用。《深度强化学习理论与实践》一书不仅回顾了经典强化学习算法,还系统介绍了深度强化学习的理论、算法和典型框架。特别地,本书还专门开辟了一章详细地介绍了近年来叱咤风云的AlphaGo系列算法。本书内容全面,既注重理论的系统性,又兼顾内容的实用性,对于科学研究人员和工程技术人员,均具有很高的参考价值。 ——汪军 西悉尼大学助理教授,墨尔本大学荣誉研究员、博士生导师★人工智能的研究可以极大地解放生产力与发展生产力,带来人类社会历史性的变革。学习是智能的本质特征,强化学习是近年来得到极大关注并取得重要进展的人工智能技术,将强化学习与深度学习结合的深度强化学习技术研究是目前人工智能领域的前沿与热点。《深度强化学习理论与实践》系统介绍了深度强化学习的基本理论与重要算法实现,本书具备算法理论推导严密与算法设计实现详细的特点,书中内容安排合理,难度循序渐进,适于深度强化学习领域的研究生或工程师作为阅读材料和参考书籍。 ——刘昆 中山大学航空航天学院副院长、教授★自从2016年围棋人工智能AlphaGo击败人类围棋世界冠军以来,深度强化学习的研究迈入了一个新的阶段,在系统智能控制、多智能体决策等领域不断取得令人瞩目的成果,深度强化学习被认为是实现人工智能的关键技术,它对人类的发展与进步有着深远的影响。《深度强化学习理论与实践》比较全面、系统地介绍了深度强化学习的理论和算法,对该领域主要的理论、模型和算法进行了比较严谨与清晰地描述,特别是书中绝大多数算法给出了一个或多个程序案例,方便读者理解相关理论和算法,可以为该领域学术研究人员和工程技术人员提供良好的参考。 ——何开锋 军事科学院首席专家、研究员★随着近年来深度神经网络研究的兴起,深度强化学习作为一个新的重要学科分支吸引了越来越多的科研人员和产业人员的关注,它在系统控制与决策、对抗博弈等领域取得了令人瞩目的成就。《深度强化学习理论与实践》涵盖了基本强化学习理论与技术、深度强化学习方法及AlphaGo围棋人工智能的实现原理,可以给初学者提供全面且实用的深度强化学习知识,特别是书中包含了丰富的算法实现代码,便于对该领域感兴趣的读者学习、理解及开展研究工作,快速掌握相关理论与实践技术。 ——曾占魁 上海航天技术研究院科技四部副部长、研究员
内容简介
本书比较全面、系统地介绍了深度强化学习的理论和算法,并配有大量的案例和编程实现。全书核心内容可以分为3部分,**部分为经典强化学习,包括第2、3、4章,主要内容有动态规划法,蒙特卡洛法、时序差分法;第二部分为深度强化学习,包括第6、7、8章,主要内容有值函数近似法、策略梯度法、策略梯度法进阶;第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。另外,作为理论和算法的辅助,第1章介绍了强化学习的模型,第5章简单介绍了深度学习和PyTorch编程框架。 本书可以作为理工科大学相关专业研究生的学位课教材,也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材,还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。
目录
目录
本书源代码
配套资源
第1章强化学习的模型(156min)
1.1强化学习简介
1.1.1初识强化学习
1.1.2强化学习的历史
1.1.3强化学习与机器学习的关系
1.2强化学习的模型
1.2.1强化学习基本模型和要素
1.2.2强化学习的执行过程
1.2.3强化学习的数学模型——马尔可夫决策过程
1.2.4环境模型案例
1.3Gym介绍
1.3.1Gym简介
1.3.2Gym安装
1.3.3Gym的环境描述和案例
1.3.4在Gym中添加自编环境
1.3.5直接使用自编环境
第2章动态规划法(231min)
2.1动态规划法简介
2.2值函数和贝尔曼方程
2.2.1累积折扣奖励
2.2.2值函数
2.2.3贝尔曼方程
2.3策略评估
2.4策略改进
2.5*优值函数和*优策略
2.6策略迭代和值迭代
2.7动态规划法求解强化学习案例
第3章蒙特卡罗法(211min)
3.1蒙特卡罗法简介
3.2蒙特卡罗策略评估
3.2.1蒙特卡罗策略评估
3.2.2增量式蒙特卡罗策略评估
3.2.3蒙特卡罗策略评估案例
3.2.4蒙特卡罗和动态规划策略评估的对比
3.3蒙特卡罗强化学习
3.3.1蒙特卡罗策略改进
3.3.2起始探索蒙特卡罗强化学习
3.3.3ε贪婪策略蒙特卡罗强化学习
3.3.4蒙特卡罗强化学习案例
3.4异策略蒙特卡罗强化学习
3.4.1重要性采样
3.4.2异策略蒙特卡罗策略评估
3.4.3增量式异策略蒙特卡罗策略评估
3.4.4异策略蒙特卡罗强化学习
3.4.5异策略蒙特卡罗强化学习案例
3.5蒙特卡罗树搜索
3.5.1MCTS的基本思想
3.5.2MCTS的算法流程
3.5.3基于MCTS的强化学习算法
3.5.4案例和代码
第4章时序差分法(174min)
4.1时序差分策略评估
4.1.1时序差分策略评估原理
4.1.2时序差分策略评估算法
4.1.3时序差分策略评估案例
4.1.4时序差分策略评估的优势
4.2同策略时序差分强化学习
4.2.1Sarsa算法
4.2.2Sarsa算法案例
4.3异策略时序差分强化学习
4.3.1Qlearning算法
4.3.2期望Sarsa算法
4.3.3Double Qlearning算法
4.3.4Qlearning算法案例
4.4n步时序差分强化学习
4.4.1n步时序差分策略评估
4.4.2nstep Sarsa算法
4.5TD(λ)算法
4.5.1前向TD(λ)算法
4.5.2后向TD(λ)算法
4.5.3Sarsa(λ)算法
第5章深度学习与PyTorch(275min)
5.1从感知机到神经网络
5.1.1感知机模型
5.1.2感知机和布尔运算
5.2深度神经网络
5.2.1网络拓扑
5.2.2前向传播
5.2.3训练模型
5.2.4误差反向传播
5.3激活函数、损失函数和数据预处理
5.3.1激活函数
5.3.2损失函数
5.3.3数据预处理
5.4PyTorch深度学习软件包
5.4.1数据类型及类型的转换
5.4.2张量的维度和重组操作
5.4.3组装神经网络的模块
5.4.4自动梯度计算
5.4.5训练数据自由读取
5.4.6模型的搭建、训练和测试
5.4.7模型的保存和重载
5.5深度学习案例
5.5.1函数近似
5.5.2数字图片识别
第6章值函数近似算法(195min)
6.1线性值函数近似算法
6.1.1线性值函数近似时序差分算法
6.1.2特征函数
6.1.3线性值函数近似算法案例
6.2神经网络值函数近似法
6.2.1DQN算法原理
6.2.2DQN算法
6.2.3DQN算法案例
6.3Double DQN(DDQN)算法
6.4Prioritized Replay DQN算法
6.4.1样本优先级
6.4.2随机优先级采样
6.4.3样本重要性权重参数
6.4.4Prioritized Replay DQN算法流程
6.4.5Prioritized Replay DQN算法案例
6.5Dueling DQN算法
6.5.1Dueling DQN算法原理
6.5.2Dueling DQN算法案例
第7章策略梯度算法(176min)
7.1策略梯度算法的基本原理
7.1.1初识策略梯度算法
7.1.2策略函数
7.1.3策略目标函数
7.1.4策略梯度算法的框架
7.1.5策略梯度算法的评价
7.2策略梯度定理
7.2.1离散型策略梯度定理
7.2.2连续型策略梯度定理
7.2.3近似策略梯度和评价函数
7.3蒙特卡罗策略梯度算法(REINFORCE)
7.3.1REINFORCE的基本原理
7.3.2REINFORCE的算法流程
7.3.3REINFORCE随机梯度的严格推导
7.3.4带基线函数的REINFORCE
7.3.5REINFORCE实际案例及代码实现
7.4演员评论家策略梯度算法
7.4.1算法原理
7.4.2算法流程
7.4.3算法代码及案例
第8章策略梯度法进阶(135min)
8.1异步优势演员: 评论家算法
8.1.1异步强化学习
8.1.2A3C算法
8.1.3A2C算法
8.1.4案例和程序
8.2深度确定性策略梯度算法
8.2.1DDPG的基本思想
8.2.2DDPG的算法原理
8.2.3DDPG的算法结构和流程
8.2.4案例和程序
8.3近端策略优化算法
8.3.1PPO的算法原理
8.3.2PPO的算法结构和流程
8.3.3案例和程序
8.4柔性演员评论家算法
8.4.1*大熵原理
8.4.2柔性Q学习
8.4.3SAC算法原理
8.4.4SAC算法结构和流程
8.4.5案例和程序
第9章深度强化学习案例: AlphaGo系列算法
9.1AlphaGo算法介绍
9.1.1AlphaGo中的深度神经网络
9.1.2AlphaGo中深度神经网络的训练
9.1.3AlphaGo的MCTS
9.1.4总结
9.2AlphaGo Zero算法介绍
9.2.1AlphaGo Zero的策略价值网络
9.2.2AlphaGo Zero的MCTS
9.2.3AlphaGo Zero的算法流程
9.3AlphaZero算法介绍
9.3.1从围棋到其他棋类需要解决的问题
9.3.2AlphaZero相对于AlphaGo Zero的改进与调整
9.3.3AlphaZero的算法流程
9.4MuZero算法介绍
9.4.1MuZero中的深度神经网络
9.4.2MuZero中的MCTS
9.4.3MuZero的算法流程
9.5AlphaGo系列算法的应用与启示
参考文献
作者简介
龙强,博士、副教授、硕士研究生导师;就职于西南科技大学数理学院数据科学系,中国运筹学会终生会员;主要从事*优化理论与算法、机器学习算法研究;在国际国内学术期刊上发表论文20余篇,获批国家发明专利3项,主持和参与国家自然科学基金3项,参与国家社会科学基金1项;讲授“深度强化学习”“深度学习与神经网络”“算法设计与分析”“*优化理论与算法”“机器学习”等课程。 章胜,博士、副研究员、硕士研究生导师;就职于中国空气动力研究与发展中心,中国空气动力学学会会员;主要从事飞行器轨迹优化、非线性控制与智能控制研究。在国际及国内学术期刊上发表论文20篇,获批国家发明专利5项,主持和参与国家自然科学基金、国家重点基础研究发展计划等项目15项。
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥19.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0