- ISBN:9787121417474
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:348
- 出版时间:2021-08-01
- 条形码:9787121417474 ; 978-7-121-41747-4
本书特色
适读人群 :人工智能相关行业的管理者和研发人员、高等院校的计算机专业学生本书从工业问题和工业应用入手,应用前沿技术方法,定义并解决面临的技术问题. 本书是知识图谱大规模工业实践的经验总结,且包含了知识图谱的前沿学术研究。 本书得到来未来科技(浙江)有限公司CEO墙辉(玄难)倾情作序。 阿里巴巴集团副总裁、达摩院数据库首席科学家,ACM杰出科学家李飞飞,新加坡国立大学终身教授,IEEE Fellow, ISCA Fellow 李海洲,阿里巴巴集团副总裁、达摩院语言实验室首席科学家,ACM 杰出科学家 司罗,苏州大学计算机科学与技术学院院长,国家杰出青年科学基金获得者 张民,中国科学院自动化研究所研究员, 中国科学院大学人工智能学院岗位教授赵军,鼎力推荐! 本书讨论了知识图谱的整体技术架构及各个模块的理论研究,即知识建模、知识获取、知识融合、知识推理,同时探讨了知识图谱的前沿技术话题。 本书围绕千亿级商品知识图谱这一真实工业实践案例,针对各个模块详细阐述了系统中的算法细节、工程系统实现方法及相关的业务应用。 本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。 本书采用全彩印刷,提供良好阅读体验。
内容简介
本书源于阿里巴巴千亿级知识图谱构建与产业化应用的工作总结,对知识图谱理论和大规模工业实践进行了全面和深入的阐述。本书以阿里巴巴的实战经验为中心,以深厚的理论成果为支撑,详细阐述了知识图谱的方方面面。首先介绍工业场景下知识图谱的现状、存在的问题和架构设计;然后从知识表示、知识融合、知识获取、知识推理、知识存储和知识图谱前沿方向等方面入手,介绍大规模商品知识图谱的构建方法;*后结合阿里巴巴的业务实践,详细介绍知识图谱的产品设计、技术实现和业务应用细节。通过阅读本书,读者不仅可以从零开始认识知识图谱,了解知识图谱技术方法和前沿技术方向,而且可以熟悉知识图谱工业实践的实现路径,清楚知识图谱的应用方向和方法。本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。 本书在知识图谱的广度和深度上兼具极强的参考性,适合人工智能相关行业的管理者和研发人员、高等院校的计算机专业学生阅读。
目录
目 录
第1章 工业级知识图谱概述 / 1
1.1 知识图谱概述 / 2
1.1.1 通用知识图谱 / 2
1.1.2 行业知识图谱 / 3
1.2 工业级知识图谱实战原则 / 4
1.2.1 实践中的典型问题 / 4
1.2.2 实战原则 / 4
1.3 阿里巴巴知识引擎技术架构 / 8
1.3.1 平台产品:知识建模与管理 / 9
1.3.2 平台产品:知识生产 / 11
1.3.3 业务、平台产品:知识服务 / 16
1.4 本章小结 / 19
第2章 商品知识的表示和建模 / 20
2.1 知识表示简介 / 21
2.1.1 基于符号逻辑的知识表示方法 / 21
2.1.2 面向互联网的知识表示方法 / 23
2.1.3 基于连续向量的知识表示 / 25
2.2 行业知识建模 / 27
2.2.1 基于专家的知识建模 / 27
2.2.2 基于机器学习的知识建模 / 29
2.3 商品知识建模实践 / 32
2.3.1 术语抽取 / 33
2.3.2 商品概念及上下位关系生成 / 36
2.4 构建商品知识体系 / 37
2.4.1 通用域知识图谱 / 37
2.4.2 阿里商品域知识体系 / 39
2.5 商品知识建模应用场景 / 48
2.5.1 服务国家和社会机构应用 / 48
2.5.2 零售业务应用 / 49
2.6 小结 / 50
2.6.1 知识建模技术的未来发展 / 50
2.6.2 知识体系设计的未来发展 / 51
第3章 商品知识融合 / 53
3.1 知识融合概述 / 54
3.1.1 知识融合的主要难点 / 54
3.1.2 知识融合的基本步骤 / 55
3.2 本体对齐 / 57
3.2.1 基于语言学特征的方法 / 58
3.2.2 基于结构特征的方法 / 61
3.2.3 商品知识图谱本体对齐算法 / 63
3.3 实体对齐 / 70
3.3.1 实体对齐的流程 / 70
3.3.2 实体对齐的技术路线 / 71
3.3.3 商品知识图谱实体对齐实践 / 80
3.4 信息融合 / 91
3.4.1 无监督的信息融合方法 / 92
3.4.2 有监督和半监督的信息融合方法 / 99
3.4.3 商品知识图谱信息融合算法实践 / 100
3.5 跨语言知识融合 / 103
3.5.1 跨语言知识融合的挑战 / 103
3.5.2 跨语言实体对齐的技术路线 / 104
3.5.3 基于规则的跨语言实体对齐方法 / 104
3.5.4 基于翻译的跨语言实体对齐方法 / 105
3.5.5 基于表示学习的跨语言实体对齐方法 / 107
3.6 知识融合质量评估体系 / 110
3.6.1 知识融合评估指标介绍 / 110
3.6.2 离线融合效果评估 / 112
3.6.3 在线融合效果评估 / 117
3.7 本章小结 / 119
第4章 商品知识获取 / 120
4.1 知识获取概述 / 121
4.1.1 知识获取相关任务 / 121
4.1.2 知识获取相关测评会议 / 123
4.2 命名实体识别 / 125
4.2.1 命名实体识别概览 / 125
4.2.2 标注体系及常用数据集 / 126
4.2.3 基于规则的命名实体识别 / 128
4.2.4 基于统计模型的命名实体识别 / 128
4.2.5 基于神经网络的实体识别 / 130
4.3 实体链接 / 133
4.3.1 实体链接概述 / 133
4.3.2 候选实体生成 / 133
4.3.3 候选实体排序 / 135
4.3.4 端到端的实体链接方法 / 138
4.4 关系抽取 / 139
4.4.1 关系抽取概述 / 139
4.4.2 基于模板的关系抽取方法 / 140
4.4.3 基于监督学习的关系抽取方法 / 140
4.4.4 基于半监督学习的关系抽取方法 / 149
4.4.5 基于无监督学习的关系抽取方法 / 154
4.5 槽填充与属性补全 / 156
4.5.1 槽填充与属性补全概述 / 156
4.5.2 基于模板的方法 / 158
4.5.3 基于关系分类的方法 / 160
4.6 面向半结构化数据的知识获取 / 160
4.6.1 百科类网站数据抽取 / 160
4.6.2 面向Web网页的知识获取 / 161
4.7 低资源条件下知识获取 / 162
4.7.1 基于监督学习和弱监督学习的方法 / 163
4.7.2 基于迁移学习的方法 / 163
4.7.3 基于元学习的方法 / 164
4.7.4 基于知识增强的方法 / 165
4.8 电商领域知识获取实践 / 166
4.8.1 电商知识获取框架 / 166
4.8.2 面向场景导购的知识获取示例 / 169
4.8.3 低资源商品知识获取示例 / 177
4.9 本章小结 / 180
第5章 商品知识推理 / 182
5.1 知识推理概述 / 183
5.1.1 知识推理的作用 / 183
5.1.2 专家系统与知识推理 / 184
5.1.3 神经网络与知识推理 / 185
5.2 基于符号逻辑的知识推理 / 186
5.2.1 基于本体的知识推理方法 / 187
5.2.2 基于规则的知识推理方法 / 191
5.2.3 基于规则学习的知识图谱推理 / 197
5.3 基于表示学习的知识推理 / 200
5.3.1 基于分布式表示的知识推理 / 200
5.3.2 基于神经网络的知识推理 / 210
5.4 基于图数据库的商品知识推理引擎工程实践 / 218
5.4.1 技术框架简介 / 219
5.4.2 与传统规则推理引擎的对比 / 223
5.5 可解释的商品知识图谱推理应用实践 / 226
5.5.1 电商应用背景 / 226
5.5.2 技术实践方案 / 228
5.5.3 实验结果及案例分析 / 233
5.6 基于强化学习的商品规则学习与推理应用实践 / 236
5.6.1 电商应用背景 / 236
5.6.2 技术实践方案 / 238
5.6.3 实验结果及案例分析 / 240
5.7 本章小结 / 241
第6章 知识图谱的存储、服务与质量 / 243
6.1 知识图谱的存储 / 244
6.1.1 数据模型 / 244
6.1.2 存储系统选型 / 247
6.1.3 图查询语言 / 252
6.1.4 关键技术与选择 / 254
6.2 知识图谱的服务 / 257
6.2.1 基于知识图谱的搜索 / 258
6.2.2 基于知识图谱的推荐 / 264
6.2.3 搜索推荐在业务智能中的应用 / 274
6.2.4 基于知识图谱的问答系统 / 278
6.3 知识图谱质量保障 / 281
6.3.1 质量保障架构 / 281
6.3.2 测试原则与方法 / 282
6.4 本章小结 / 284
第7章 大规模商品知识图谱
预训练 / 285
7.1 知识预训练概述 / 286
7.1.1 预训练语言模型 / 286
7.1.2 知识图谱中的结构化上下文信息 / 288
7.1.3 基于知识增强的预训练模型 / 289
7.1.4 预训练知识图谱模型与预训练语言模型的区别 / 293
7.2 商品知识图谱静态预训练模型 / 294
7.2.1 预训练知识图谱查询框架 / 294
7.2.2 预训练知识图谱查询模块 / 295
7.2.3 预训练知识图谱查询服务 / 296
7.2.4 在任务模块中使用查询服务 / 297
7.3 商品知识图谱动态预训练模型 / 299
7.3.1 上下文模块和整合模块 / 299
7.3.2 预训练阶段和微调阶段 / 301
7.4 商品知识图谱预训练实践案例 / 303
7.4.1 基于知识图谱预训练的商品分类 / 304
7.4.2 基于知识图谱预训练的商品对齐 / 309
7.4.3 基于知识图谱预训练的商品推荐 / 312
7.4.4 基于商品知识预训练的实体识别 / 316
7.4.5 基于商品知识预训练的关系抽取与属性补齐 / 318
7.4.6 基于商品知识预训练的标题生成 / 324
7.5 总结与展望 / 325
参考文献 / 326
节选
7.1 知识预训练概述 知识图谱虽然包含大量有价值的信息,但通常以三元组形式的结构化数据存储,机器无法直接读取和使用。表示学习能将知识图谱中的实体和关系映射到连续空间中用向量表示,并能利用向量的代数运算,很好地建模知识图谱中的结构特征。向量表示被广泛应用在知识图谱相关任务及NLP任务上,且都取得了不错的效果。针对不同的建模任务和目标,相关工作已经提出了不同的知识图谱表示学习方法。随着GPT、BERT、XLNET等预训练语言模型在多项自然语言处理领域任务上刷新了之前的*好效果,预训练受到了各界的广泛关注。预训练在本质上是表示学习的一种,其核心思想是“预训练和微调”方法,具体包括以下步骤:首先利用大量的自然语言数据训练一个语言模型,获取文本中包含的通用知识信息;然后在下游任务微调阶段,针对不同的下游任务,设计相应的目标函数,基于相对较少的监督数据,便可得到不错的效果。 受预训练语言模型的启发,我们将“预训练和微调”的思想应用到了商品知识图谱表示中。商品知识图谱包含亿级的节点信息,同时还包含丰富的结构信息,这对如何高效地建模商品知识图谱带来了挑战。大规模商品知识图谱预训练包含三个主要方向:商品知识图谱静态预训练、商品知识图谱动态预训练和知识增强的预训练语言模型。其中,商品知识图谱静态预训练和商品知识图谱动态预训练是对商品知识图谱自身信息的表示学习,而知识增强的预训练语言模型则侧重于非结构化文本场景。不同的预训练方法有不同的业务场景,细节将在后续章节详细阐述。知识图谱预训练对于具有亿级节点的阿里巴巴商品知识图谱极为重要,因为它能够避免对庞大的商品知识图谱重复训练,从而能够更高效、快速地为下游任务场景提供服务。 7.1.1 预训练语言模型 随着深度学习的发展,神经网络已广泛用于解决自然语言处理(NLP)任务。深度学习模型能在一系列NLP任务里获得很好的实验效果,但同时模型参数数量也在快速增长,所以需要更大的数据集来防止过拟合。但是由于标注数据成本极高,对于大多数自然语言处理任务来说,构建大规模的有标签数据集是一项巨大的挑战,尤其是对于语法和语义等相关任务。 人类的语言是高度抽象且富含知识的,文本数据只是人类大脑对信息进行处理后的一个载体,所以沉淀的文本数据本身具有大量有价值的信息。互联网上沉淀了大规模的自然文本数据,基于这些海量文本,可以设计自监督训练任务,学习好的表示模型,然后将这些表示模型用于其他任务。基于这种思想,*近几年提出的预训练语言模型(Pre-trained Language Model)在许多自然语言处理任务中都被证明有效,并且能够显著提升相关任务的实验结果。 预训练语言模型可以学习通用的语言表示,捕捉语言中内含的结构知识,特别是针对下游任务标注数据量少的低资源场景,采用“预训练+微调”的模式,能够显著提升效果。预训练语言模型的输入通常是一个文本序列片段,神经编码器会编码输入序列,针对每个输入单元,会编码得到对应的向量表示。区别于传统Word2Vec词向量,预训练得到的向量表示是上下文相关的,因为向量是编码器根据输入动态计算得到的,所以能够捕捉上下文语义信息。相对于传统词向量的静态性,预训练得到的向量表示具有一定的多义词表达能力。至于更高语义级别的文本表示,如句子表示、文档表示等,都是当前前沿研究的内容。 McCann等人利用机器翻译(Machine Translation,MT)任务从注意序列到序列模型预训练了一个深度LSTM编码器,并通过预训练编码器输出的上下文向量(Context Vectors,CoVe)可以提高多种常见自然语言处理任务的性能。Peters等人采用双向语言模型(Bidirectional Language Model,BiLM)预训练的两层LSTM编码器,包括前向语言模型和后向语言模型。而通过预训练的BiLM输出的上下文表示,ELMo模型在学得来自语言模型的向量表示后,在自然语言处理任务领域发挥了巨大的作用。 但是,这些预训练语言模型通常用作特征提取器来生成上下文词向量,当这些词向量被用到下游任务的主要模型中时是固定的,而模型中的其他参数仍需要从头开始训练。Ramachandran等人发现,可以通过无监督的预训练显著改善Seq2Seq模型效果。编码器和解码器的权重都使用两种语言模型的预训练权重初始化,然后使用标记的数据微调。ULMFiT模型尝试将微调用于文本分类(Text Classification,TC)的预训练语言模型,并在六种广泛使用的文本分类数据集上取得了更好的效果。 *近一段时间,深层预训练语言模型在学习通用语言表示形式方面显示出了强大的能力。例如,基于生成式预训练模型的OpenAI GPT和基于Transformer的双向编码器的BERT 模型,以及越来越多的自监督预训练语言模型能够从大规模文本语料库中获取更多知识,在大量自然语言处理任务中获得了成功。 以BERT模型为例,预训练语言模型首先在大型数据集上根据一些无监督任务进行训练,包括下一个语句预测任务(Next Sentence Prediction,NSP)和掩码语言模型任务(Masked Language Model),这部分被称为预训练。接着在微调阶段,根据后续下游任务,例如文本分类、词性标注和问答系统等,对基于预训练的语言模型进行微调,使得BERT模型无须调整结构,只调整输入/输出数据和训练部分的参数,就可以在不同的任务上取得很好的效果。图7??1(a)展示了BERT模型在预训练阶段的结构,图7-1(b)展示了在多个不同数据集和任务上进行微调的结构示意图。BERT模型具有很好的兼容性、扩展性,并在多种自然语言处理下游任务上达到**的实验效果。
作者简介
张 伟 博士毕业于新加坡国立大学。研究方向为知识图谱(KG)、自然语言处理(NLP)等。曾任阿里巴巴资深算法专家、新加坡资讯通信研究院NLP应用实验室主任等职位。曾担任NLP会议ACL领域主席,期刊TACL常驻审稿人。兼职复旦大学、苏州大学硕士生校外导师。主导了阿里巴巴商品知识图谱的建设。论文发表在WWW/EMNLP/AAAI/IJCAI/AIJ/CoLing/ICDE/WSDM/IJCNLP/NAACL/CIKM等国际会议和期刊上。获得了钱伟长中文信息处理科学技术一等奖,杭州市省级领军人才等荣誉。 陈华钧 浙江大学计算机科学与技术学院教授/博导,主要研究方向为知识图谱、大数据系统、自然语言处理等。在WWW/IJCAI/AAAI/KR/ACL/EMNLP/KDD/VLDB/ICDE/TKDE/ACM MM/Briefings in Bioinforamtics等国际会议或期刊上发表多篇论文。曾获国际语义网会议ISWC2006*佳论文奖、教育部技术发明一等奖、钱伟长中文信息处理科技奖一等奖、阿里巴巴优秀学术合作奖、中国工信传媒出版集团优秀出版物一等奖等奖励。牵头发起中文开放知识图谱OpenKG,中国人工智能学会知识工程专业委员会副主任、中国中文信息学会语言与知识计算专委会副主任,全国知识图谱大会CCKS2020大会主席,Elsevier Big Data Research Journal Editor in Chief。 张亦弛 毕业于伦敦大学。工作研究方向为电商领域知识图谱构建、自然语言处理和多模态技术在知识图谱的应用等。曾任阿里巴巴商品知识图谱算法负责人。在阿里巴巴知识图谱藏经阁研究计划中,联合团队与清华大学、浙江大学、中科院软件所、中科院自动化所和苏州大学等科研机构协作,构建了千亿级商品知识图谱数据,服务了阿里十多个垂直电商平台和海内外多个国家市场。学术论文发表在BMVC/EMNLP/WSDM等国内外会议和期刊中。团队多次荣获中国国家编码中心和中国ECR委员会颁发的创新项目奖、卓越项目奖,中国中文信息学会钱伟长科技奖一等奖等国家机构和学术协会奖项。
-
深度学习的数学
¥43.5¥69.0 -
全图解零基础word excel ppt 应用教程
¥19.0¥48.0 -
机器学习
¥59.4¥108.0 -
有限与无限的游戏:一个哲学家眼中的竞技世界
¥37.4¥68.0 -
智能硬件项目教程:基于ARDUINO(第2版)
¥31.9¥65.0 -
硅谷之火-人与计算机的未来
¥14.3¥39.8 -
元启发式算法与背包问题研究
¥38.2¥49.0 -
AI虚拟数字人:商业模式+形象创建+视频直播+案例应用
¥62.9¥89.8 -
UNIX环境高级编程(第3版)
¥164.9¥229.0 -
剪映AI
¥52.8¥88.0 -
深度学习高手笔记 卷2:经典应用
¥90.9¥129.8 -
纹样之美:中国传统经典纹样速查手册
¥76.3¥109.0 -
UG NX 12.0数控编程
¥22.1¥45.0 -
MATLAB计算机视觉与深度学习实战(第2版)
¥90.9¥128.0 -
界面交互设计理论研究
¥30.8¥56.0 -
微机组装与系统维护技术教程(第二版)
¥37.8¥43.0 -
明解C语言:实践篇
¥62.9¥89.8 -
Linux服务器架设实战(Linux典藏大系)
¥83.3¥119.0 -
Visual Basic 语言程序设计基础(第6版)
¥32.0¥45.0 -
贝叶斯推理与机器学习
¥139.3¥199.0