×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
Python深度强化学习——使用PyTorch, TensorFlow 和OpenAI Gym

Python深度强化学习——使用PyTorch, TensorFlow 和OpenAI Gym

1星价 ¥51.8 (7.5折)
2星价¥51.8 定价¥69.0
暂无评论
图文详情
  • ISBN:9787302607724
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:244
  • 出版时间:2022-10-01
  • 条形码:9787302607724 ; 978-7-302-60772-4

本书特色

本书重点突出深度强化学习理论的基本概念、前沿基础理论和Python应用实现。首先介绍马尔可夫决策、基于模型的算法、无模型方法、动态规划、蒙特卡洛和函数逼近等基础知识;然后详细阐述强化学习、深度强化学习、多智能体强化学习等算法,及其Python应用实现。本书既阐述奖励、价值函数、模型和策略等重要概念和基础知识,又介绍深度强化学习理论的前沿研究和热点方向。本书英文版出版之后,广受好评,已成为深度强化学习领域畅销教材,也可为人工智能和机器学习等领域的科研工作者、技术工程师提供参考。

内容简介

本书重点突出深度强化学习理论的基本概念、前沿基础理论和Python应用实现。首先介绍马尔可夫决策、基于模型的算法、无模型方法、动态规划、蒙特卡洛和函数逼近等基础知识;然后详细阐述强化学习、深度强化学习、多智能体强化学习等算法,及其Python应用实现。本书既阐述奖励、价值函数、模型和策略等重要概念和基础知识,又介绍深度强化学习理论的前沿研究和热点方向。本书英文版出版之后,广受好评,已成为深度强化学习领域畅销教材,也可为人工智能和机器学习等领域的科研工作者、技术工程师提供参考。

目录

第1章强化学习导论 1.1强化学习概述 1.2机器学习分类 1.2.1监督学习 1.2.2无监督学习 1.2.3强化学习 1.2.4核心元素 1.3基于强化学习的深度学习 1.4实例和案例研究 1.4.1自动驾驶汽车 1.4.2机器人 1.4.3推荐系统 1.4.4金融和贸易 1.4.5医疗保健 1.4.6游戏 1.5库与环境设置 1.6总结 第2章马尔可夫决策 2.1强化学习的定义 2.2智能体和环境 2.3奖励 2.4马尔可夫过程 2.4.1马尔可夫链 2.4.2马尔可夫奖励
过程 2.4.3马尔可夫决策
过程 2.5策略和价值函数
2.6贝尔曼方程 2.6.1贝尔曼*优方程 2.6.2解决方法类型的
思维导图 2.7总结 第3章基于模型的算法 3.1OpenAI Gym 3.2动态规划 3.3策略评估/预测 3.4策略改进和迭代 3.5价值迭代 3.6广义策略迭代 3.7异步回溯 3.8总结 第4章无模型方法 4.1蒙特卡洛估计/预测 4.2蒙特卡洛控制 4.3离线策略MC控制 4.4TD学习方法 4.5TD控制 4.6在线策略SARSA 4.7Q学习: 离线策略
TD控制 4.8*大偏差和双重学习 4.9期望SARSA控制
4.10回放池和离线策略学习 4.11连续状态空间的Q学习 4.12n步回报 4.13资格迹和TD(λ) 4.14DP、MC和TD之间
的关系 4.15总结 第5章函数逼近 5.1概述 5.2逼近理论 5.2.1粗编码 5.2.2瓦片编码 5.2.3逼近中的挑战 5.3增量预测: MC、TD和
TD(λ) 5.4增量控制 5.4.1n步半梯度SARSA
控制 5.4.2半梯度SARSA(λ)
控制 5.5函数逼近的收敛性 5.6梯度时序差分学习 5.7批处理方法 5.8线性*小二乘法 5.9深度学习库 5.10总结 第6章深度Q学习 6.1DQN 6.2优先回放 6.3双Q学习 6.4竞争DQN 6.5噪声网DQN 6.6C51 6.7分位数回归DQN 6.8事后经验回放 6.9总结 第7章策略梯度算法 7.1引言 7.1.1基于策略的方法的
利弊 7.1.2策略表征 7.2策略梯度推导 7.2.1目标函数 7.2.2导数更新规则 7.2.3更新规则的运算
原理 7.3强化算法 7.3.1带奖励因子的
方差减少 7.3.2进一步减少基线
差异 7.4演员评论家方法 7.4.1定义优势 7.4.2优势演员评论家
7.4.3A2C算法的
实现 7.4.4异步优势演员
评论家 7.5信赖域策略优化算法 7.6近似策略优化算法 7.7总结 第8章结合策略梯度和Q学习 8.1策略梯度与Q学习
的权衡 8.2结合策略梯度与Q学习的
一般框架 8.3深度确定性策略梯度 8.3.1Q学习在DDPG中的
应用(评论家) 8.3.2DDPG中的策略
学习(演员) 8.3.3伪代码和实现 8.3.4代码实现 8.4双延迟DDPG 8.4.1目标策略平滑 8.4.2Q损失(评论家)
8.4.3策略损失(演员) 8.4.4延迟更新 8.4.5伪代码和实现 8.4.6代码实现 8.5重参数化技巧 8.5.1分数/强化方法 8.5.2重参数化技巧与
路径导数 8.5.3实验 8.6熵解释 8.7软演员评论家 8.7.1SAC与TD3 8.7.2熵正则化下的
Q损失 8.7.3具有重参数技巧的
策略损失 8.7.4伪代码及其实现 8.7.5代码实现 8.8总结 第9章综合规划与学习 9.1基于模型的强化学习 9.1.1使用学习的模型
进行规划 9.1.2集成学习与规划 9.1.3Dyna Q和变化
的环境 9.1.4Dyna Q 9.1.5期望与示例更新 9.2探索vs利用 9.2.1多臂强盗 9.2.2后悔值: 探索质量的
衡量标准 9.3决策时间规划和蒙特
卡洛树搜索 9.4AlphaGo模拟实验 9.5总结 第10章进一步的探索与后续
工作
10.1基于模型的强化学习:
其他方法 10.1.1世界模型 10.1.2想象力增强智
能体 10.1.3基于模型的强化
学习和无模型
微调 10.1.4基于模型的价值
扩展 10.2模仿学习和逆强化
学习 10.3无导数方法 10.4迁移学习和多任务
学习 10.5元学习 10.6流行的强化学习库 10.7如何继续学习 10.8总结 术语
展开全部

作者简介

作者简介
Nimish Sanghi(尼米什·桑吉)一位充满激情的技术领导者,专注于使用技术解决客户问题,在软件和咨询领域拥有超过25年的工作经验,拥有人工智能和深度学习的多项证书,获得印度理工学院电气工程学士学位、印度管理学院工商管理硕士学位。曾在普华永道、IBM和Oracle等公司担任领导职务,负责盈亏管理。2006年,在SOAIS公司开启软件咨询创业之旅,为《财富》100强的众多公司提供自动化和数字化转型服务,实现从本地应用到云计算的转型。人工智能和自动化驱动的初创公司领域的天使投资人,联合创立面向印度市场的SaaS人力资源和薪资Paybooks平台,联合创立提供人工智能驱动的工作流ZipperAgent自动化平台和视频营销ZipperHQ自动化平台(总部位于波士顿的初创公司),现任这两个平台的首席技术官和首席数据科学家。
译者简介作者简介
Nimish Sanghi(尼米什·桑吉)一位充满激情的技术领导者,专注于使用技术解决客户问题,在软件和咨询领域拥有超过25年的工作经验,拥有人工智能和深度学习的多项证书,获得印度理工学院电气工程学士学位、印度管理学院工商管理硕士学位。曾在普华永道、IBM和Oracle等公司担任领导职务,负责盈亏管理。2006年,在SOAIS公司开启软件咨询创业之旅,为《财富》100强的众多公司提供自动化和数字化转型服务,实现从本地应用到云计算的转型。人工智能和自动化驱动的初创公司领域的天使投资人,联合创立面向印度市场的SaaS人力资源和薪资Paybooks平台,联合创立提供人工智能驱动的工作流ZipperAgent自动化平台和视频营销ZipperHQ自动化平台(总部位于波士顿的初创公司),现任这两个平台的首席技术官和首席数据科学家。
译者简介
罗俊海,博士(后),电子科技大学副教授、硕士生导师。主要研究方向为智能计算、目标检测和数据融合,主持国家自然科学基金、四川省科技厅基金、总装预研基金和中央高校基本科研业务等15项,参与制订标准6项,发表文章60余篇,其中SCI检索50余篇,总引用1500余次。申请和授权发明专利30余项,获四川省科学技术进步奖二等奖和三等奖各1项。出版《多源数据融合和传感器管理》《使用HTML和CSS开发WEB网站》《物联网系统开发及应用实战》等专著和教材5部,以及译著《实用MATLAB深度学习:基于项目的方法》。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航