包邮工业级知识图谱:方法与实践

1星价 ¥65.9 (5.6折)

2星价￥65.9 定价￥118.0

作者：张伟

出版社：电子工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 人工智能

暂无评论

图文详情

ISBN：9787121417474
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：16开
页数：348
出版时间：2021-08-01
条形码：9787121417474 ; 978-7-121-41747-4

本书特色

适读人群：人工智能相关行业的管理者和研发人员、高等院校的计算机专业学生本书从工业问题和工业应用入手，应用前沿技术方法，定义并解决面临的技术问题. 本书是知识图谱大规模工业实践的经验总结，且包含了知识图谱的前沿学术研究。本书得到来未来科技（浙江）有限公司CEO墙辉（玄难）倾情作序。阿里巴巴集团副总裁、达摩院数据库首席科学家，ACM杰出科学家李飞飞，新加坡国立大学终身教授，IEEE Fellow, ISCA Fellow 李海洲，阿里巴巴集团副总裁、达摩院语言实验室首席科学家，ACM 杰出科学家司罗，苏州大学计算机科学与技术学院院长，国家杰出青年科学基金获得者张民，中国科学院自动化研究所研究员, 中国科学院大学人工智能学院岗位教授赵军，鼎力推荐！本书讨论了知识图谱的整体技术架构及各个模块的理论研究，即知识建模、知识获取、知识融合、知识推理，同时探讨了知识图谱的前沿技术话题。本书围绕千亿级商品知识图谱这一真实工业实践案例，针对各个模块详细阐述了系统中的算法细节、工程系统实现方法及相关的业务应用。本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。本书采用全彩印刷，提供良好阅读体验。

内容简介

本书源于阿里巴巴千亿级知识图谱构建与产业化应用的工作总结，对知识图谱理论和大规模工业实践进行了全面和深入的阐述。本书以阿里巴巴的实战经验为中心，以深厚的理论成果为支撑，详细阐述了知识图谱的方方面面。首先介绍工业场景下知识图谱的现状、存在的问题和架构设计；然后从知识表示、知识融合、知识获取、知识推理、知识存储和知识图谱前沿方向等方面入手，介绍大规模商品知识图谱的构建方法；*后结合阿里巴巴的业务实践，详细介绍知识图谱的产品设计、技术实现和业务应用细节。通过阅读本书，读者不仅可以从零开始认识知识图谱，了解知识图谱技术方法和前沿技术方向，而且可以熟悉知识图谱工业实践的实现路径，清楚知识图谱的应用方向和方法。本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。本书在知识图谱的广度和深度上兼具极强的参考性，适合人工智能相关行业的管理者和研发人员、高等院校的计算机专业学生阅读。

节选

7.1 知识预训练概述知识图谱虽然包含大量有价值的信息，但通常以三元组形式的结构化数据存储，机器无法直接读取和使用。表示学习能将知识图谱中的实体和关系映射到连续空间中用向量表示，并能利用向量的代数运算，很好地建模知识图谱中的结构特征。向量表示被广泛应用在知识图谱相关任务及NLP任务上，且都取得了不错的效果。针对不同的建模任务和目标，相关工作已经提出了不同的知识图谱表示学习方法。随着GPT、BERT、XLNET等预训练语言模型在多项自然语言处理领域任务上刷新了之前的*好效果，预训练受到了各界的广泛关注。预训练在本质上是表示学习的一种，其核心思想是“预训练和微调”方法，具体包括以下步骤：首先利用大量的自然语言数据训练一个语言模型，获取文本中包含的通用知识信息；然后在下游任务微调阶段，针对不同的下游任务，设计相应的目标函数，基于相对较少的监督数据，便可得到不错的效果。受预训练语言模型的启发，我们将“预训练和微调”的思想应用到了商品知识图谱表示中。商品知识图谱包含亿级的节点信息，同时还包含丰富的结构信息，这对如何高效地建模商品知识图谱带来了挑战。大规模商品知识图谱预训练包含三个主要方向：商品知识图谱静态预训练、商品知识图谱动态预训练和知识增强的预训练语言模型。其中，商品知识图谱静态预训练和商品知识图谱动态预训练是对商品知识图谱自身信息的表示学习，而知识增强的预训练语言模型则侧重于非结构化文本场景。不同的预训练方法有不同的业务场景，细节将在后续章节详细阐述。知识图谱预训练对于具有亿级节点的阿里巴巴商品知识图谱极为重要，因为它能够避免对庞大的商品知识图谱重复训练，从而能够更高效、快速地为下游任务场景提供服务。 7.1.1 预训练语言模型随着深度学习的发展，神经网络已广泛用于解决自然语言处理（NLP）任务。深度学习模型能在一系列NLP任务里获得很好的实验效果，但同时模型参数数量也在快速增长，所以需要更大的数据集来防止过拟合。但是由于标注数据成本极高，对于大多数自然语言处理任务来说，构建大规模的有标签数据集是一项巨大的挑战，尤其是对于语法和语义等相关任务。人类的语言是高度抽象且富含知识的，文本数据只是人类大脑对信息进行处理后的一个载体，所以沉淀的文本数据本身具有大量有价值的信息。互联网上沉淀了大规模的自然文本数据，基于这些海量文本，可以设计自监督训练任务，学习好的表示模型，然后将这些表示模型用于其他任务。基于这种思想，*近几年提出的预训练语言模型（Pre-trained Language Model）在许多自然语言处理任务中都被证明有效，并且能够显著提升相关任务的实验结果。预训练语言模型可以学习通用的语言表示，捕捉语言中内含的结构知识，特别是针对下游任务标注数据量少的低资源场景，采用“预训练+微调”的模式，能够显著提升效果。预训练语言模型的输入通常是一个文本序列片段，神经编码器会编码输入序列，针对每个输入单元，会编码得到对应的向量表示。区别于传统Word2Vec词向量，预训练得到的向量表示是上下文相关的，因为向量是编码器根据输入动态计算得到的，所以能够捕捉上下文语义信息。相对于传统词向量的静态性，预训练得到的向量表示具有一定的多义词表达能力。至于更高语义级别的文本表示，如句子表示、文档表示等，都是当前前沿研究的内容。 McCann等人利用机器翻译（Machine Translation，MT）任务从注意序列到序列模型预训练了一个深度LSTM编码器，并通过预训练编码器输出的上下文向量（Context Vectors，CoVe）可以提高多种常见自然语言处理任务的性能。Peters等人采用双向语言模型（Bidirectional Language Model，BiLM）预训练的两层LSTM编码器，包括前向语言模型和后向语言模型。而通过预训练的BiLM输出的上下文表示，ELMo模型在学得来自语言模型的向量表示后，在自然语言处理任务领域发挥了巨大的作用。但是，这些预训练语言模型通常用作特征提取器来生成上下文词向量，当这些词向量被用到下游任务的主要模型中时是固定的，而模型中的其他参数仍需要从头开始训练。Ramachandran等人发现，可以通过无监督的预训练显著改善Seq2Seq模型效果。编码器和解码器的权重都使用两种语言模型的预训练权重初始化，然后使用标记的数据微调。ULMFiT模型尝试将微调用于文本分类（Text Classification，TC）的预训练语言模型，并在六种广泛使用的文本分类数据集上取得了更好的效果。 *近一段时间，深层预训练语言模型在学习通用语言表示形式方面显示出了强大的能力。例如，基于生成式预训练模型的OpenAI GPT和基于Transformer的双向编码器的BERT 模型，以及越来越多的自监督预训练语言模型能够从大规模文本语料库中获取更多知识，在大量自然语言处理任务中获得了成功。以BERT模型为例，预训练语言模型首先在大型数据集上根据一些无监督任务进行训练，包括下一个语句预测任务（Next Sentence Prediction，NSP）和掩码语言模型任务（Masked Language Model），这部分被称为预训练。接着在微调阶段，根据后续下游任务，例如文本分类、词性标注和问答系统等，对基于预训练的语言模型进行微调，使得BERT模型无须调整结构，只调整输入/输出数据和训练部分的参数，就可以在不同的任务上取得很好的效果。图7??1（a）展示了BERT模型在预训练阶段的结构，图7-1（b）展示了在多个不同数据集和任务上进行微调的结构示意图。BERT模型具有很好的兼容性、扩展性，并在多种自然语言处理下游任务上达到**的实验效果。

作者简介

张伟博士毕业于新加坡国立大学。研究方向为知识图谱（KG）、自然语言处理（NLP）等。曾任阿里巴巴资深算法专家、新加坡资讯通信研究院NLP应用实验室主任等职位。曾担任NLP会议ACL领域主席，期刊TACL常驻审稿人。兼职复旦大学、苏州大学硕士生校外导师。主导了阿里巴巴商品知识图谱的建设。论文发表在WWW/EMNLP/AAAI/IJCAI/AIJ/CoLing/ICDE/WSDM/IJCNLP/NAACL/CIKM等国际会议和期刊上。获得了钱伟长中文信息处理科学技术一等奖，杭州市省级领军人才等荣誉。陈华钧浙江大学计算机科学与技术学院教授/博导，主要研究方向为知识图谱、大数据系统、自然语言处理等。在WWW/IJCAI/AAAI/KR/ACL/EMNLP/KDD/VLDB/ICDE/TKDE/ACM MM/Briefings in Bioinforamtics等国际会议或期刊上发表多篇论文。曾获国际语义网会议ISWC2006*佳论文奖、教育部技术发明一等奖、钱伟长中文信息处理科技奖一等奖、阿里巴巴优秀学术合作奖、中国工信传媒出版集团优秀出版物一等奖等奖励。牵头发起中文开放知识图谱OpenKG，中国人工智能学会知识工程专业委员会副主任、中国中文信息学会语言与知识计算专委会副主任，全国知识图谱大会CCKS2020大会主席，Elsevier Big Data Research Journal Editor in Chief。张亦弛毕业于伦敦大学。工作研究方向为电商领域知识图谱构建、自然语言处理和多模态技术在知识图谱的应用等。曾任阿里巴巴商品知识图谱算法负责人。在阿里巴巴知识图谱藏经阁研究计划中，联合团队与清华大学、浙江大学、中科院软件所、中科院自动化所和苏州大学等科研机构协作，构建了千亿级商品知识图谱数据，服务了阿里十多个垂直电商平台和海内外多个国家市场。学术论文发表在BMVC/EMNLP/WSDM等国内外会议和期刊中。团队多次荣获中国国家编码中心和中国ECR委员会颁发的创新项目奖、卓越项目奖，中国中文信息学会钱伟长科技奖一等奖等国家机构和学术协会奖项。

本类五星书