×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
暂无评论
图文详情
  • ISBN:9787030770950
  • 装帧:精装
  • 册数:暂无
  • 重量:暂无
  • 开本:B5
  • 页数:180
  • 出版时间:2024-03-01
  • 条形码:9787030770950 ; 978-7-03-077095-0

内容简介

本书尝试归纳总结近年来游戏人工智能方向的优秀研究工作以及我们的一些探索呈现给读者。首先介绍游戏人工智能的背景和意义、发展历史和研究现状、平台和问题,然后梳理经典的游戏人工智能方法,并给出DeepMind公司近几年针对棋牌和视频类游戏所提出的优秀的人工智能方法。之后是著者团队的具体研究工作和算法介绍,所考虑的问题都是有挑战的即时制游戏问题,包括格斗游戏的实时性和角色变化、ViZDoom游戏的**视角属性、星际争霸的宏观生产和微观操作的不接近信息和多个体特点等,给出了相应的解决方法。从理论分析到算法设计到编程实现,旨在为读者提供一个针对不同游戏人工智能问题的系统性论述。

目录

目录“新一代人工智能理论、技术及应用丛书”序前言第1章游戏人工智能介绍11.1引言11.1.1游戏人工智能背景和意义11.1.2游戏人工智能研究发展11.2回合制游戏人工智能31.2.1棋类游戏人工智能发展历程31.2.2牌类游戏人工智能发展历程41.2.3棋牌类游戏人工智能测试平台51.3即时制游戏人工智能71.3.1即时制游戏平台和竞赛71.3.2雅达利游戏81.3.3**人称视角游戏91.3.4即时策略游戏101.4游戏人工智能的关键性挑战与研究思路121.5游戏人工智能的未来发展趋势与展望131.5.1基于深度强化学习方法的策略模型泛化性141.5.2构建高效鲁棒合理的前向推理模型141.5.3增强模型的环境适应和学习优化性能141.5.4从虚拟环境到实际应用的迁移151.6本章小结15参考文献15第2章基本游戏人工智能方法202.1引言202.2**博弈树模型202.2.1极小化极大算法202.2.2α-β剪枝算法212.3统计前向规划222.3.1蒙特卡罗树搜索算法232.3.2滚动时域演化算法262.4强化学习272.4.1蒙特卡罗算法292.4.2时间差分强化学习算法302.4.3策略梯度学习算法312.5深度强化学习332.5.1深度Q网络及其扩展342.5.2异步优势执行器-评价器算法及其扩展382.5.3策略梯度深度强化学习402.5.4面向对抗博弈的深度强化学习432.6本章小结45参考文献45第3章DeepMind游戏人工智能方法513.1引言513.2AlphaGo513.2.1算法概述523.2.2计算机围棋的发展历史与现状523.2.3原理分析533.2.4性能分析563.2.5评价573.3AlphaGoZero.583.3.1算法概述583.3.2深度神经网络结构613.3.3蒙特卡罗树搜索613.3.4训练流程643.3.5讨论653.4AlphaZero和MuZero663.4.1AlphaZero概述673.4.2MuZero概述683.4.3算法解析703.4.4性能分析723.5AlphaStar743.5.1星际争霸研究意义743.5.2算法概述753.5.3算法解析763.5.4性能分析783.6本章小结81参考文献82第4章两人零和马尔可夫博弈的极小化极大Q网络算法854.1引言854.2两人零和马尔可夫博弈的基本知识864.2.1两人零和马尔可夫博弈864.2.2纳什均衡或极小化极大均衡864.2.3极小化极大价值和极小化极大方程864.2.4线性规划求解极小化极大解874.3动态规划求解贝尔曼极小化极大方程884.3.1值迭代884.3.2策略迭代884.3.3广义策略迭代894.4极小化极大Q网络算法904.4.1Q函数神经网络904.4.2在线学习904.4.3M2QN算法在查表法下的收敛性924.5仿真实验944.5.1足球博弈944.5.2守护领土964.5.3格斗游戏984.6本章小结101参考文献101第5章格斗游戏的对手模型和滚动时域演化算法1045.1引言1045.2基于滚动时域演化的统计前向规划建模1055.2.1格斗游戏问题定义1055.2.2滚动时域演化算法1055.3基于自适应对手模型的神经网络建模1075.3.1对手模型建模1075.3.2监督学习式对手模型1075.3.3强化学习式对手模型1085.4实验设计与测试结果1105.4.1实验设置与测试平台1105.4.2内部比较1115.4.3对抗2018年格斗游戏程序1135.4.4两种统计前向规划与对手建模结合的性能比较1145.4.52019年格斗游戏竞赛结果1155.4.62020年格斗游戏竞赛结果1155.4.7性能指标分析1165.4.8讨论1215.5本章小结121参考文献122第6章星际争霸宏观生产的深度强化学习算法1246.1引言1246.2星际争霸宏观生产决策分析与建模1256.2.1问题定义1256.2.2输入状态特征1266.2.3决策动作定义1286.2.4决策神经网络模型结构1286.2.5基于策略和价值混合式网络的决策系统优化方法1296.3实验设置与结果分析1326.3.1星际争霸宏观决策对抗优化场景1326.3.2对抗优化场景下的实验结果1336.3.3星际争霸学生天梯赛1366.4本章小结136参考文献136第7章星际争霸微操的强化学习和课程迁移学习算法1387.1引言1387.2星际争霸微操任务分析与建模1397.2.1问题定义1397.2.2高维状态表示1407.2.3动作定义1417.2.4网络结构1417.3基于强化学习的星际争霸多单位控制1427.3.1共享参数多智能体梯度下降Sarsa(λ)算法1437.3.2奖赏函数1447.3.3帧跳跃1457.3.4课程迁移学习1457.4实验设置和结果分析1467.4.1星际争霸微操场景设置1467.4.2结果讨论1477.4.3策略分析1517.5本章小结154参考文献154第8章星际争霸微操的可变数量多智能体强化学习算法1568.1引言1568.2背景知识与相关工作1568.2.1多智能体强化学习1568.2.2联合观测动作价值函数分解1588.2.3相关工作1588.3可变数量多智能体强化学习1628.3.1自加权混合网络1628.3.2适应动作空间变化的智能体网络1658.3.3可变网络的训练算法1668.4星际争霸II微操实验1698.4.1可变网络在星际争霸II微操环境的实验设置1698.4.2可变网络实验结果1708.4.3消融实验1728.4.4可变网络策略分析1748.5本章小结175参考文献176附录A强化学习符号表178附录B主要词汇中英文对照表179
展开全部

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航