中外学者论AI强化学习
温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>
- ISBN:9787302532408
- 装帧:平装-胶订
- 册数:暂无
- 重量:暂无
- 开本:其他
- 页数:177
- 出版时间:2017-12-01
- 条形码:9787302532408 ; 978-7-302-53240-8
本书特色
本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼 近理论的强化学习及深度强化学习等。 本书以教学为目标进行选材,力求阐述严谨、重点突出、深入浅出,以便于教学与自学。 本书面向所有对强化学习感兴趣的读者,可作为高等学校理工科高年级本科生、研究生强化学习课程教材或 参考书。
内容简介
本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼 近理论的强化学习及深度强化学习等。 本书以教学为目标进行选材,力求阐述严谨、重点突出、深入浅出,以便于教学与自学。 本书面向所有对强化学习感兴趣的读者,可作为高等学校理工科高年级本科生、研究生强化学习课程教材或 参考书。
目录
参考文献 9 第 2章基础知识 .10 2.1运筹学简明基础 .10 2.1.1无约束非线性规划优化方法 11 2.1.2 KKT条件 .13 2.1.3凸规划的性质 13 2.2概率与统计简明基础 14 2.2.1概率论基本概念 .14 2.2.2概率论的收敛定理 16 2.2.3统计学的基本概念 17 2.2.4*大似然估计法 .17 2.2.5估计量的优良性评估 18 2.2.6采样与随机模拟 .19 2.2.7 Monte Carlo方法简介 .20 2.2.8重要采样法 21
2.3小结 22 2.4习题 23
参考文献 .23 第
**一篇
基于于模模型型的的强强化化学学习 一篇基
于模型的强化学习 第 3章多摇臂问题26 3.1动作值方法 27 3.2非平稳多摇臂问题 28 3.3 UCB动作选择 .29 3.4梯度摇臂算法 30 3.5习题 30
参考文献 .30 第 4章 Markov决策过程 .31 4.1定义和记号 31 4.2有限 Markov决策过程 .32 4.3 Bellman方程 .33 4.4*优策略 .35 4.5小结 38 4.6习题 38
参考文献 .39 第 5章动态规划 .40 5.1策略评估 .40 5.2策略改进 .41 5.3策略迭代 .42 5.4值迭代 44 5.5异步动态规划 45 5.6收敛性证明 46 5.7小结 47 5.8习题 47 参考文献 .47 第
第二二篇
基于于采采样估计计的的强强化化学学习 二篇基
于采样
-估
计的强化学习 第 6章策略评估 .50 6.1基于 Monte Carlo方法的策略评估 50 6.1.1同策略 Monte Carlo策略评估 .51 6.1.2异策略 Monte Carlo策略评估 .53 6.2基于时序差分方法的策略评估 .55 6.3 n步预测 .60 6.4小结 63 6.5习题 63
参考文献 .64 第 7章策略控制 .65 7.1同策略 Monte Carlo控制 .65 7.2同策略时序差分学习 67 7.3异策略学习 69 7.4基于 TD(λ)的策略控制 71 7.5实例 72 7.5.1问题介绍 .73 7.5.2 MDP模型的要素 .73 7.5.3策略评估 .74 7.5.4策略控制 .74 7.6小结 75 7.7习题 75
参考文献 .75 第 8章学习与规划的整合76 8.1模型和规划 76 8.2 Dyna:整合规划、动作和学习 .77 8.3几个概念 .79 8.4在决策关头的规划 80 8.4.1启发式算法 80 8.4.2 rollout算法 .81 8.4.3 Monte Carlo树搜索 .81 8.5小结 82
8.6习题 83
参考文献 .83 第
第三三篇
基于于逼逼近近理理论论的的强强化化学学习 三篇基
于逼近理论的强化学习 第 9章值函数逼近86 9.1基于随机梯度下降法的值函数逼近 87 9.2基于随机梯度下降法的 Q-值函数逼近 90 9.3批处理 92 9.3.1线性*小二乘值函数逼近 92 9.3.2线性*小二乘 Q-值函数逼近 .93 9.4小结 94 9.5习题 94
参考文献 .94 第 10章策略逼近 .95 10.1策略梯度法 95 10.1.1*优参数问题的目标函数 96 10.1.2策略梯度 97 10.1.3梯度计算 97 10.1.4 REINFORCE算法 .99 10.2方差减少方法 .99 10.2.1利用一个评论 .99 10.2.2利用基准线 101 10.3小结 104 10.4习题 104
参考文献 . 105 第 11章信赖域策略优化 . 106 11.1预备知识 . 107 11.2单调改进一般性随机策略的方法 109 11.3参数化策略的优化 110 11.4基于采样的目标和约束估计 . 111 11.5实用算法 . 113 11.6小结 114 11.7习题 114
参考文献 . 114 第
第四四篇
深度度强强化化学学习 四篇深
度强化学习 第 12章深度学习 . 116 12.1神经网络基础 . 116 12.1.1神经网络解决问题的基本流程 117 12.1.2激活函数 117 12.1.3损失函数 119 12.1.4优化算法 120 12.2典型深度神经网络结构 . 123 12.2.1深度的作用 123 12.2.2卷积神经网络 . 124 12.2.3循环神经网络 . 125
参考文献 . 127 第 13章深度 Q-网络 128 13.1 DQN原理 . 129 13.1.1预处理 . 129 13.1.2网络结构 130 13.1.3算法 131 13.1.4深度 Q-网络的训练算法 . 132 13.1.5算法详细说明 . 132 13.2 DQN实例 . 133 13.2.1 Atari 2600游戏介绍 . 133 13.2.2 DQN算法的实现 133 13.3小结 142 13.4习题 142
参考文献 . 142 第 14章深度确定性策略梯度. 144 14.1 DDPG算法介绍 144 14.1.1 DDPG算法的发展介绍 . 144 14.1.2 DDPG算法的原理解析 . 145
14.2 DDPG算法的实现 . 147 14.2.1 Mujoco的安装及使用 . 147 14.2.2 DDPG算法的实现解析 . 149 14.2.3 DDPG算法的训练和测试 . 153
参考文献 . 154 第 15章多智能体强化学习 155 15.1多智能体强化学习介绍 . 155 15.1.1多智能体强化学习的发展简述 155 15.1.2随机博弈 156 15.1.3纳什 Q-学习 . 157 15.2平均场多智能体强化学习原理 . 158 15.2.1平均场近似理论 158 15.2.2平均场多智能体强化学习算法 161 15.3平均场多智能体实验 . 163 15.3.1 MAgent平台 163 15.3.2混合合作-竞争的战斗游戏介绍 . 165 15.3.3 MF-Q和 MF-AC算法的实现解析 . 167 15.3.4战斗游戏的训练与测试 171
参考文献 . 176
作者简介
柯良军,西安交通大学电信学院自动化系教授、博士生导师。2008年获西安交通大学工学博士学位。2011年10至2012年10月在英国University of Essex访问学习。研究方向为复杂系统建模与优化,尤其是无人智能系统与城市交通系统的建模与优化。在IEEE Transaction on Cybernetics, Omega, European Journal of Operational Research等重要刊物发表论文30余篇,其中SCI检索论文20余篇,出版学术专著1部。担任《IEEE Transactions on Evolutionary Computation》、《IEEE Transaction on Cybernetics》、《 European Journal of Operational Research》、CEC等国际重要期刊和会议的审稿人。先后主持国家自然科学基金等10余项科研课题。
-
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
全图解零基础word excel ppt 应用教程
¥12.0¥48.0 -
机器学习
¥59.4¥108.0 -
深度学习的数学
¥43.5¥69.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
UN NX 12.0多轴数控编程案例教程
¥25.8¥38.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0