包邮图强化学习--原理与实践入门

1星价 ¥48.3 (7.0折)

2星价￥48.3 定价￥69.0

作者：谢文杰、周炜星

出版社：清华大学出版社

本类榜单：计算机/网络

分类：计算机/网络 > 图形图像多媒体 > 其他

暂无评论

图文详情

ISBN：9787302655992
装帧：平装-胶订
册数：暂无
重量：暂无
开本：其他
页数：250
出版时间：2024-03-01
条形码：9787302655992 ; 978-7-302-65599-2

本书特色

本书从算法原理出发，详细介绍了图强化学习的算法、原理和实践，与各领域实际问题相结合。

内容简介

图强化学习是深度强化学习的重要分支领域。本书作为该领域的入门教材，在内容上尽可能覆盖图强化学习的基础知识，并提供应用实践案例。全书共 10章，大致分为三部分：**部分（第 1～ 3章）介绍图强化学习研究对象（复杂系统、图和复杂网络）；第二部分（第 4～7章）介绍图强化学习基础知识（图嵌入、图神经网络和深度强化学习）；第三部分（第 8～10章）介绍图强化学习模型框架和应用实践案例，并进行总结和展望。每章都附有习题并介绍了相关阅读材料，以便有兴趣的读者进一步深入探索。本书可作为高等院校计算机、图数据挖掘及相关专业的本科生或研究生教材，也可供对图强化学习感兴趣的研究人员和工程技术人员阅读参考。

**部分图强化学习研究对象
第1章图与复杂系统 3
1.1 为什么是图 3
1.1.1 图的普遍性 3
1.1.2 图的表示性 4
1.1.3 图的抽象性 4
1.2 图与复杂系统 5
1.2.1 复杂系统定义 5
1.2.2 复杂系统的图表示 6
1.2.3 复杂系统问题与图 7
1.3 复杂系统与强化学习 7
1.3.1 强化学习 8
1.3.2 智能决策 8
1.3.3 基于强化学习的智能决策 9
1.4 复杂系统与智能决策 9
1.4.1 复杂金融系统风险管理问题 10
1.4.2 复杂社会系统舆情传播和虚假信息防控问题 12
1.5 应用实践 12
1.5.1 图数据集 13
1.5.2 图可视化和分析工具 13
第1章习题 14
第2章图论基础 15
2.1 图论的起源 15
2.1.1 提出问题 16
2.1.2 形式化问题 16
2.1.3 求解问题 16
2.2 图论的发展 17
2.2.1 随机图理论 17
2.2.2 拓扑图论 17
2.2.3 几何图论 18
2.2.4 代数图论 18
2.3 图论的概念 18
2.3.1 图定义 19
2.3.2 节点 19
2.3.3 连边 19
2.3.4 邻接矩阵 20
2.3.5 度 20
2.3.6 邻域 20
2.3.7 途径 21
2.3.8 *短路 22
2.3.9 带自环图 23
2.3.10 圈 23
2.3.11 子图 24
2.3.12 连通分量 24
2.3.13 *大连通子图 25
2.3.14 简单图 25
2.3.15 平面图 26
2.3.16 对偶图 26
2.3.17 树 28
2.4 经典图示例 29
2.4.1 完全图 29
2.4.2 二部图 30
2.4.3 彼得森图 31
2.4.4 星状图 31
2.4.5 网格图 32
2.4.6 正十二面体图 33
2.5 经典问题示例 33
2.5.1 图同构 33
2.5.2 TSP问题 34
2.5.3 *小点覆盖问题 35
2.5.4 *大割问题 35
2.5.5 *大独立集问题 35
2.6 可视图 35
2.6.1 可视图算法 36
2.6.2 水平可视图算法 36
2.6.3 水平可视图度分布 37
2.6.4 有向水平可视图度分布 39
2.7 应用实践 41
第2章习题 42
第3章图与复杂网络 44
3.1 复杂网络背景 44
3.1.1 复杂网络简介 44
3.1.2 复杂网络简史 45
3.1.3 复杂网络应用 45
3.1.4 复杂网络分析概述 46
3.1.5 网络表示 47
3.2 节点指标 48
3.2.1 节点的度 48
3.2.2 节点的强度 49
3.2.3 聚簇系数 49
3.2.4 接近中心性 50
3.2.5 介数中心性 50
3.2.6 特性向量中心性 50
3.2.7 PageRank中心性 51
3.2.8 权威值得分和枢纽值得分 51
3.2.9 k核中心性 52
3.3 网络连边指标 53
3.3.1 连边权重 53
3.3.2 显著性测度 53
3.3.3 边介数中心性 55
3.3.4 共同邻居数 55
3.3.5 网络关系Adamic/Adar量 56
3.3.6 网络关系Resource Allocation量 56
3.4 网络模体结构 56
3.4.1 模体的定义 56
3.4.2 无向网络的四元模体 56
3.4.3 有向网络的三元模体 57
3.4.4 有向网络三元模体与节点位置结构 58
3.5 网络模块结构 59
3.5.1 网络模块定义 60
3.5.2 模块内度 60
3.5.3 参与系数 61
3.5.4 模块外度 61
3.5.5 模块稳定性 61
3.6 网络全局结构 62
3.6.1 网络密度 62
3.6.2 网络同配性和异配性 63
3.6.3 网络稳健性 63
3.6.4 网络效率 64
3.7 复杂网络分类 65
3.7.1 异质网络 65
3.7.2 多层网络 66
3.7.3 多重网络 66
3.7.4 超图网络 66
3.7.5 动态网络 67
3.8 复杂网络任务 68
3.8.1 节点任务 68
3.8.2 网络连边任务 68
3.8.3 全局网络任务 69
3.9 复杂网络生成 69
3.9.1 随机网络模型 69
3.9.2 随机模块模型 70
3.9.3 优先连接模型 72
3.9.4 同质性偏好连接模型 73
3.9.5 异质性或互补性偏好连接模型 74
3.9.6 机器学习或智能算法类模型 74
3.10 网络建模实例 74
3.10.1 效用函数 75
3.10.2 成本函数 76
3.10.3 决策函数 77
3.11 应用实践 79
第3章习题 81
第二部分图强化学习基础知识
第4章图嵌入与网络嵌入 85
4.1 图的特征表示 85
4.1.1 多尺度图特征表示 85
4.1.2 如何表示复杂系统 86
4.1.3 如何表示复杂图或复杂网络 86
4.1.4 如何表示图节点 86
4.1.5 如何表示图连边 87
4.1.6 多层次的图特征表示方法 87
4.2 图与机器学习 88
4.2.1 机器学习简介 88
4.2.2 机器学习分类 88
4.3 机器学习框架 89
4.3.1 框架简介 89
4.3.2 目标函数 89
4.3.3 优化参数 90
4.4 自编码器框架 90
4.4.1 自编码器模型介绍 90
4.4.2 简单应用 91
4.5 机器学习模型 91
4.5.1 典型的数据类型 92
4.5.2 多层感知机网络 92
4.5.3 卷积神经网络 92
4.5.4 循环神经网络 94
4.6 图表示学习 94
4.6.1 图表示学习的一般框架 94
4.6.2 编码-解码框架 95
4.6.3 编码器 95
4.6.4 解码器 96
4.6.5 模型优化 97
4.7 基于矩阵分解的图嵌入 97
4.7.1 图分解方法 98
4.7.2 GraRep方法 98
4.7.3 HOPE方法 99
4.8 基于随机游走的图嵌入 99
4.8.1 DeepWalk算法 99
4.8.2 Node2Vec方法 102
4.9 可解释性图嵌入 104
4.9.1 问题背景介绍 105
4.9.2 天然气贸易决策模型 105
4.9.3 效用函数 106
4.9.4 收益函数 106
4.9.5 成本函数 106
4.9.6 机器学习模型损失函数 107
4.9.7 模型优化 108
4.10 应用实践 108
第4章习题 109
第5章图神经网络 110
5.1 图神经网络介绍 110
5.2 图神经网络特征 111
5.2.1 图数据特征 111
5.2.2 端到端学习特征 112
5.2.3 归纳学习特征 112
5.3 图神经网络框架 113
5.3.1 图神经网络框架简介 113
5.3.2 消息传递神经网络框架 113
5.3.3 邻域信息汇聚函数 114
5.3.4 信息更新函数 114
5.3.5 图信息池化函数 115
5.4 图卷积神经网络 115
5.4.1 谱图理论介绍 115
5.4.2 拉普拉斯矩阵定义 116
5.4.3 随机游走归一化拉普拉斯矩阵 116
5.4.4 对称归一化拉普拉斯矩阵 116
5.4.5 拉普拉斯矩阵简单应用 117
5.4.6 图信号处理 118
5.4.7 图傅里叶变换 118
5.4.8 图傅里叶逆变换 119
5.4.9 图滤波器 120
5.4.10 图谱滤波 121
5.4.11 K阶截断多项式滤波算子 123
5.4.12 切比雪夫多项式滤波算子 124
5.4.13 图卷积神经网络 125
5.5 图注意力神经网络 127
5.5.1 注意力机制简介 127
5.5.2 基于注意力机制的信息汇聚函数 127
5.5.3 多头注意力模型框架 129
5.6 图网络 129
5.6.1 更新连边信息 130
5.6.2 汇聚连边信息 130
5.6.3 更新节点信息 130
5.6.4 汇聚全局信息 130
5.7 应用实践 131
第5章习题 133
第6章强化学习基础 134
6.1 强化学习背景 134
6.1.1 强化学习与图神经网络 135
6.1.2 强化学习与序贯决策问题 135
6.1.3 强化学习求解序贯决策问题 135
6.1.4 强化学习特征 136
6.2 强化学习与图 136
6.2.1 图上决策问题 136
6.2.2 强化学习与图上决策问题 137
6.3 强化学习概念 138
6.3.1 马尔可夫决策过程 138
6.3.2 状态和状态空间 139
6.3.3 动作和动作空间 139
6.3.4 状态转移函数 140
6.3.5 即时回报函数 140
6.3.6 回报折扣系数 140
6.3.7 策略函数 141
6.3.8 状态值函数 141
6.3.9 状态--动作值函数 142
6.4 蒙特卡洛方法 142
6.4.1 蒙特卡洛采样 143
6.4.2 状态值函数估计 143
6.4.3 状态--动作值函数估计 143
6.4.4 值函数增量更新方法 144
6.4.5 蒙特卡洛强化学习伪代码 146
6.5 时序差分学习 147
6.5.1 时序差分简介 148
6.5.2 Q--learning算法简介 149
6.5.3 Q--learning算法伪代码 150
6.5.4 SARSA算法简介 151
6.5.5 SARSA算法伪代码 151
6.5.6 SARSA与Q--learning对比分析 152
6.6 策略梯度方法 153
6.6.1 轨迹概率 153
6.6.2 策略梯度 154
6.6.3 目标函数 154
6.6.4 蒙特卡洛策略梯度算法 155
6.6.5 REINFORCE算法伪代码 156
6.7 强化学习分类 156
6.7.1 值函数方法和策略函数方法 157
6.7.2 On-policy 和 Off-policy强化学习 157
6.7.3 Online 和 Offline强化学习 157
6.7.4 Model-based 和 Model-free强化学习 157
6.8 应用实践 158
6.8.1 状态空间 158
6.8.2 动作空间 159
6.8.3 状态转换 159
6.8.4 即时奖励 159
6.8.5 折扣系数 160
6.8.6 状态价值函数 160
6.8.7 *优策略函数 161
第6章习题 161
第7章深度强化学习 163
7.1 深度强化学习背景 163
7.1.1 深度学习 163
7.1.2 深度强化学习 164
7.2 深度Q网络方法 165
7.2.1 Q表格 165
7.2.2 轨迹采样 165
7.2.3 深度神经网络近似策略函数 166
7.2.4 TD目标 167
7.2.5 TD误差 167
7.2.6 目标函数 167
7.2.7 目标函数梯度 168
7.2.8 深度神经网络参数更新 168
7.2.9 *优策略 169
7.3 深度Q网络算法关键技术 169
7.3.1 -贪心策略 169
7.3.2 目标网络 170
7.3.3 经验回放 170
7.3.4 DQN算法伪代码 170
7.4 深度Q网络算法面临的挑战 171
7.4.1 离策略 172
7.4.2 自举 172
7.4.3 函数近似 172
7.5 深度策略梯度方法 172
7.5.1 深度Q神经网络算法的局限 172
7.5.2 深度策略梯度算法简介 173
7.6 深度策略梯度算法关键技术 174
7.6.1 策略梯度估计 174
7.6.2 策略函数参数更新 175
7.6.3 优势函数估计 175
7.6.4 状态值函数估计 176
7.6.5 深度策略梯度算法伪代码 177
7.7 行动者--评论家方法 178
7.7.1 AC（Actor--Critic）算法简介 178
7.7.2 A2C算法简介 178
7.7.3 A2C算法伪代码 179
7.8 应用与实践的通用框架 180
7.8.1 马尔可夫决策过程模型 180
7.8.2 状态空间 181
7.8.3 动作空间 181
7.8.4 状态转移函数 181
7.8.5 即时奖励函数 181
7.8.6 折扣系数 182
7.9 基于策略梯度算法的应用与实践 182
7.9.1 复杂环境模型 182
7.9.2 深度学习模型 182
7.9.3 深度强化学习算法 183
7.9.4 智能体模型 185
7.9.5 深度强化学习模型训练结果 186
7.10 基于深度Q网络算法的应用与实践 187
7.10.1 游戏环境状态空间 187
7.10.2 智能体动作空间 188
7.10.3 游戏即时奖励 188
7.10.4 游戏状态转移模型 189
7.10.5 游戏环境模型 189
7.10.6 游戏策略模型 189
7.10.7 深度强化学习算法 189
7.10.8 模型训练分析 190
7.10.9 模型结果分析 191
7.10.10 模型改进分析 192
第7章习题 194
第三部分图强化学习模型框架和应用实践
第8章图强化学习基础 197
8.1 图强化学习背景 197
8.1.1 多学科交叉融合 197
8.1.2 多学科关联关系图 198
8.1.3 图与网络的基础理论和方法 199
8.1.4 图与机器学习的基础理论和方法 199
8.1.5 图神经网络的基础理论和方法 199
8.1.6 深度强化学习的基础理论和方法 199
8.2 图神经网络和强化学习 200
8.2.1 图神经网络和强化学习的融合 200
8.2.2 图强化学习和强化学习的区别 201
8.2.3 图神经网络提升强化学习性能 201
8.2.4 强化学习提升图神经网络性能 202
8.3 图强化学习模型概要 202
8.3.1 复杂系统 203
8.3.2 环境模型 203
8.3.3 图和网络 203
8.3.4 深度神经网络 203
8.3.5 深度强化学习 204
8.3.6 优化算法 204
8.3.7 图强化学习框架概要 205
8.4 图强化学习框架硬件层 206
8.4.1 中央处理器 206
8.4.2 图形处理器 206
8.4.3 张量处理器 206
8.4.4 其他处理器 207
8.5 图强化学习框架平台层 207
8.5.1 深度学习平台简介 207
8.5.2 深度学习平台：TensorFlow 207
8.5.3 深度学习平台：PyTorch 208
8.5.4 深度学习其他平台 208
8.6 图强化学习框架算法层 208
8.6.1 深度强化学习框架简介 209
8.6.2 深度强化学习框架：Stable--baselines 209
8.6.3 深度强化学习框架：Reinforcement Learning Coach 210
8.6.4 深度图神经网络框架简介 210
8.6.5 深度图神经网络框架：PyTorch Geometric 210
8.6.6 深度图神经网络框架：Deep Graph Library 211
8.7 图强化学习框架应用层 211
8.8 图强化学习建模 211
8.8.1 图强化学习与马尔可夫决策过程 211
8.8.2 图强化学习建模流程 212
8.8.3 问题提出 212
8.8.4 环境建模 213
8.8.5 智能体建模 213
8.8.6 模型训练 214
8.8.7 模型测试 214
8.9 应用实践 214
8.9.1 深度强化学习模块 214
8.9.2 图神经网络模块 215
8.9.3 其他图神经网络模块 217
第8章习题 218
第9章图强化学习应用 219
9.1 图强化学习模型框架 219
9.2 图强化学习模块概述 220
9.2.1 复杂环境模块 221
9.2.2 图神经网络模块 221
9.2.3 强化学习模块 221
9.2.4 智能体模块 221
9.2.5 工具类模块 222
9.2.6 其他模块 222
9.3 复杂环境模块 222
9.3.1 环境模块定义 222
9.3.2 环境模块定义代码 222
9.3.3 基于图的环境模块定义 224
9.3.4 基于图的环境模块重置定义 224
9.3.5 基于图的环境状态转移定义 224
9.4 图神经网络模块 225
9.4.1 图神经网络模型选择 225
9.4.2 图神经网络模块代码示例 225
9.4.3 图神经网络模块代码解析 226
9.5 强化学习模块 227
9.5.1 强化学习算法选择 227
9.5.2 强化学习算法示例代码 227
9.5.3 强化学习算法示例代码解析 228
9.6 智能体模块 229
9.6.1 智能体模块示例代码 229
9.6.2 智能体模块示例代码解析 230
9.6.3 模型训练结果 231
9.7 工具类模块 232
9.8 图强化学习模型改进 232
9.8.1 模型改进目标 233
9.8.2 模型改进方向 233
9.8.3 图神经网络模型改进代码示例 234
9.8.4 图神经网络模块代码解析 234
9.8.5 强化学习算法改进 234
第9章习题 235
第10章图强化学习展望 237
10.1 图强化学习概括 237
10.1.1 方法的起源 237
10.1.2 方法的发展 238
10.1.3 层次关系 238
10.2 图强化学习特色 238
10.2.1 学科交叉性 239
10.2.2 系统复杂性 239
10.2.3 框架普适性 239
10.3 图数据分析方法 239
10.3.1 数值分析方法 240
10.3.2 仿真模拟方法 240
10.3.3 优化方法 241
10.3.4 数据驱动方法 241
10.3.5 图强化学习方法 241
10.4 图强化学习应用 242
10.4.1 网络关键节点识别 242
10.4.2 网络关键连边识别 242
10.4.3 知识图谱 243
10.4.4 组合优化 243
10.5 图神经网络展望 243
10.5.1 人工智能的新引擎 243
10.5.2 图神经网络进展 244
10.5.3 图神经网络的可解释性 244
10.6 深度强化学习展望 245
10.6.1 自动强化学习 246
10.6.2 分层强化学习 246
10.6.3 多智能体强化学习 246
10.7 图强化学习前沿领域 247
10.7.1 图上的组合优化 247
10.7.2 图理论应用的前沿 247
10.7.3 交叉研究的前沿 248
10.8 人工智能三大学派融合 248
10.8.1 人工智能的三大学派 248
10.8.2 图强化学习融合三大学派 249
第10章习题 250

展开全部

作者简介

谢文杰，男，湖南浏阳人，应用数学博士，上海市晨光学者。现任职华东理工大学商学院金融学系副教授、硕士研究生导师、金融物理研究中心成员，主要研究复杂金融网络、机器学习、深度强化学习、金融风险管理等。获2016年度上海市自然科学奖二等奖（4/5），主持完成4项国家或省部级科研项目。周炜星，男，浙江诸暨人。青年长江学者、上海领军人才、新世纪优秀人才、上海市曙光学者、上海市青年科技启明星。现任职于华东理工大学商学院、数学学院，二级教授，博士生导师，金融物理研究中心主任。现兼任中国优选法统筹法与经济数学研究会理事、风险管理分会副理事长，中国系统工程学会理事、金融系统工程专业委员会副主任，管理科学与工程学会理事、金融计量与风险管理分会副理事长，中国工业统计教学研究会金融科技与大数据技术分会副理事长，中国数量经济学会经济复杂性专业委员会副理事长，中国复杂性科学学会副理事长。主要从事金融物理学、经济物理学和社会经济系统复杂性研究，以及相关领域大数据分析。

本类五星书

更多>>

浏览历史

计算机应用基础

邹季刚主编

¥26.2¥35.0

本类畅销

×

包邮图强化学习--原理与实践入门

本书特色

内容简介

目录

作者简介

预估到手价 ×