×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
中外学者论AI强化学习

中外学者论AI强化学习

1星价 ¥33.8 (4.9折)
2星价¥33.8 定价¥69.0

温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口有划线标记、光盘等附件不全详细品相说明>>

暂无评论
图文详情
  • ISBN:9787302532408
  • 装帧:平装-胶订
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:177
  • 出版时间:2017-12-01
  • 条形码:9787302532408 ; 978-7-302-53240-8

本书特色

本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼 近理论的强化学习及深度强化学习等。 本书以教学为目标进行选材,力求阐述严谨、重点突出、深入浅出,以便于教学与自学。 本书面向所有对强化学习感兴趣的读者,可作为高等学校理工科高年级本科生、研究生强化学习课程教材或 参考书。

内容简介

本书介绍强化学习原理、算法及其实现。内容涉及基于模型的强化学习、基于采样-估计的强化学习、基于逼 近理论的强化学习及深度强化学习等。 本书以教学为目标进行选材,力求阐述严谨、重点突出、深入浅出,以便于教学与自学。 本书面向所有对强化学习感兴趣的读者,可作为高等学校理工科高年级本科生、研究生强化学习课程教材或 参考书。

目录

第 1章绪论. 1 1.1引言 . 1 1.2解决复杂问题的朴素思想 . 3 1.2.1数学建模与优化 4 1.2.2采样和估计 . 4 1.2.3逼近 . 5 1.2.4迭代 . 5 1.3强化学习简史 . 7 1.4本书主要内容及结构 . 7 1.5小结 . 8 1.6习题 . 9
参考文献 9 第 2章基础知识 .10 2.1运筹学简明基础 .10 2.1.1无约束非线性规划优化方法 11 2.1.2 KKT条件 .13 2.1.3凸规划的性质 13 2.2概率与统计简明基础 14 2.2.1概率论基本概念 .14 2.2.2概率论的收敛定理 16 2.2.3统计学的基本概念 17 2.2.4*大似然估计法 .17 2.2.5估计量的优良性评估 18 2.2.6采样与随机模拟 .19 2.2.7 Monte Carlo方法简介 .20 2.2.8重要采样法 21
2.3小结 22 2.4习题 23
参考文献 .23 第
**一篇
基于于模模型型的的强强化化学学习 一篇基
于模型的强化学习 第 3章多摇臂问题26 3.1动作值方法 27 3.2非平稳多摇臂问题 28 3.3 UCB动作选择 .29 3.4梯度摇臂算法 30 3.5习题 30
参考文献 .30 第 4章 Markov决策过程 .31 4.1定义和记号 31 4.2有限 Markov决策过程 .32 4.3 Bellman方程 .33 4.4*优策略 .35 4.5小结 38 4.6习题 38
参考文献 .39 第 5章动态规划 .40 5.1策略评估 .40 5.2策略改进 .41 5.3策略迭代 .42 5.4值迭代 44 5.5异步动态规划 45 5.6收敛性证明 46 5.7小结 47 5.8习题 47 参考文献 .47 第
第二二篇
基于于采采样估计计的的强强化化学学习 二篇基
于采样
-估
计的强化学习 第 6章策略评估 .50 6.1基于 Monte Carlo方法的策略评估 50 6.1.1同策略 Monte Carlo策略评估 .51 6.1.2异策略 Monte Carlo策略评估 .53 6.2基于时序差分方法的策略评估 .55 6.3 n步预测 .60 6.4小结 63 6.5习题 63
参考文献 .64 第 7章策略控制 .65 7.1同策略 Monte Carlo控制 .65 7.2同策略时序差分学习 67 7.3异策略学习 69 7.4基于 TD(λ)的策略控制 71 7.5实例 72 7.5.1问题介绍 .73 7.5.2 MDP模型的要素 .73 7.5.3策略评估 .74 7.5.4策略控制 .74 7.6小结 75 7.7习题 75
参考文献 .75 第 8章学习与规划的整合76 8.1模型和规划 76 8.2 Dyna:整合规划、动作和学习 .77 8.3几个概念 .79 8.4在决策关头的规划 80 8.4.1启发式算法 80 8.4.2 rollout算法 .81 8.4.3 Monte Carlo树搜索 .81 8.5小结 82
8.6习题 83
参考文献 .83 第
第三三篇
基于于逼逼近近理理论论的的强强化化学学习 三篇基
于逼近理论的强化学习 第 9章值函数逼近86 9.1基于随机梯度下降法的值函数逼近 87 9.2基于随机梯度下降法的 Q-值函数逼近 90 9.3批处理 92 9.3.1线性*小二乘值函数逼近 92 9.3.2线性*小二乘 Q-值函数逼近 .93 9.4小结 94 9.5习题 94
参考文献 .94 第 10章策略逼近 .95 10.1策略梯度法 95 10.1.1*优参数问题的目标函数 96 10.1.2策略梯度 97 10.1.3梯度计算 97 10.1.4 REINFORCE算法 .99 10.2方差减少方法 .99 10.2.1利用一个评论 .99 10.2.2利用基准线 101 10.3小结 104 10.4习题 104
参考文献 . 105 第 11章信赖域策略优化 . 106 11.1预备知识 . 107 11.2单调改进一般性随机策略的方法 109 11.3参数化策略的优化 110 11.4基于采样的目标和约束估计 . 111 11.5实用算法 . 113 11.6小结 114 11.7习题 114
参考文献 . 114 第
第四四篇
深度度强强化化学学习 四篇深
度强化学习 第 12章深度学习 . 116 12.1神经网络基础 . 116 12.1.1神经网络解决问题的基本流程 117 12.1.2激活函数 117 12.1.3损失函数 119 12.1.4优化算法 120 12.2典型深度神经网络结构 . 123 12.2.1深度的作用 123 12.2.2卷积神经网络 . 124 12.2.3循环神经网络 . 125
参考文献 . 127 第 13章深度 Q-网络 128 13.1 DQN原理 . 129 13.1.1预处理 . 129 13.1.2网络结构 130 13.1.3算法 131 13.1.4深度 Q-网络的训练算法 . 132 13.1.5算法详细说明 . 132 13.2 DQN实例 . 133 13.2.1 Atari 2600游戏介绍 . 133 13.2.2 DQN算法的实现 133 13.3小结 142 13.4习题 142
参考文献 . 142 第 14章深度确定性策略梯度. 144 14.1 DDPG算法介绍 144 14.1.1 DDPG算法的发展介绍 . 144 14.1.2 DDPG算法的原理解析 . 145
14.2 DDPG算法的实现 . 147 14.2.1 Mujoco的安装及使用 . 147 14.2.2 DDPG算法的实现解析 . 149 14.2.3 DDPG算法的训练和测试 . 153
参考文献 . 154 第 15章多智能体强化学习 155 15.1多智能体强化学习介绍 . 155 15.1.1多智能体强化学习的发展简述 155 15.1.2随机博弈 156 15.1.3纳什 Q-学习 . 157 15.2平均场多智能体强化学习原理 . 158 15.2.1平均场近似理论 158 15.2.2平均场多智能体强化学习算法 161 15.3平均场多智能体实验 . 163 15.3.1 MAgent平台 163 15.3.2混合合作-竞争的战斗游戏介绍 . 165 15.3.3 MF-Q和 MF-AC算法的实现解析 . 167 15.3.4战斗游戏的训练与测试 171
参考文献 . 176
展开全部

作者简介

柯良军,西安交通大学电信学院自动化系教授、博士生导师。2008年获西安交通大学工学博士学位。2011年10至2012年10月在英国University of Essex访问学习。研究方向为复杂系统建模与优化,尤其是无人智能系统与城市交通系统的建模与优化。在IEEE Transaction on Cybernetics, Omega, European Journal of Operational Research等重要刊物发表论文30余篇,其中SCI检索论文20余篇,出版学术专著1部。担任《IEEE Transactions on Evolutionary Computation》、《IEEE Transaction on Cybernetics》、《 European Journal of Operational Research》、CEC等国际重要期刊和会议的审稿人。先后主持国家自然科学基金等10余项科研课题。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航