自然语言理解与行业知识图谱:概念、方法与工程落地:concepts, methods and practice

1星价 ¥84.5 (7.1折)

2星价￥84.5 定价￥119.0

作者：王楠，赵宏宇，蔡月著

出版社：机械工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 人工智能

暂无评论

图文详情

ISBN：9787111698302
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：24cm
页数：16,344页
出版时间：2022-01-01
条形码：9787111698302 ; 978-7-111-69830-2

本书特色

从自然语言理解入手，详细讲解了行业知识图谱在真实项目中构建、应用、维护等阶段中的各种“坑”和“技”。

内容简介

　　本部分首先阐述自然语言理解的发展脉络和理解逻辑，主要围绕语言符号、处理体系、语义理解等进行探讨，引出自然语言理解的自动分析原理和方法，包括自然语言特征、统计学习、机器学习、深度学习、知识图谱等。　　第1章概述自然语言发展脉络，描述了语言理解的研究现状、商业形势、认知突破口和未来预测。　　第2章梳理语言理解的演变流程，介绍我们面临的各类自然语言理解任务，*后给出语言理解的研究体系框架，引出自然语言理解的基础——自然语言处理。　　第3章重点介绍自然语言处理相关特征工程和文本任务对应的各类算法模型、深度学习的前沿进展。语言处理需要考虑特征构造（字、词、句、章级别）和特征表示，以利于后续自动处理。在特征表示方面，从早的符号表示到现在的张量表示，形成统计学习的基础。接下来结合统计学习框架，论述语言学习原理和语言模型，结合概率图模型和其他机器学习算法，阐述这些常规算法在自然语言处理任务中的应用和效果。然后进一步讨论深度学习的各类算法，对语言学习中的神经网络算法和新成果进行分析。*后探讨现有处理方法的发展边界，提出引入外源知识（知识图谱）来提高认知能力的必要性。　　第4章系统介绍知识图谱，包括知识图谱工程和知识图谱智能。然后梳理国内外常见的通用知识图谱，并进一步总结热门行业的知识图谱发展现状。*后结合语言知识和知识图谱的搭建流程，引入语义特征，通过行业文本实例操作，帮助读者了解语义理解的本质。　　行业知识图谱部分包含第5～8章。　　本部分在上述基本自然语言处理方法讲解的基础上，继续阐述行业知识图谱搭建和行业应用的方法。目前从事自然语言理解的公司都将精力放在通用文本理解上，这些文本往往口语化严重、特征杂乱、信息量不足，导致算法处理形成的*终产品的用户体验不佳。考虑到行业文本往往有一定规范，相对容易取得突破口，也有利于推动行业发展，所以我们选择从行业文本出发，以专利文本实操作为样板。　　第5章介绍行业知识工程实践，以专利行业为例，详细地描述了一个行业知识工程建设的过程。首先基于自然语言处理和知识图谱搭建方法，建设行业知识库，包括术语库、产品库、技术库、标准库、规则库等，进而开发行业主题分析模型、行业文本分类算法、相似度计算方法、价值评估方法和机器翻译方法。　　第6章介绍知识图谱模块的搭建，包括关键词助手、语义搜索、分级管理、高级分析、推荐和问答等。结合实际应用，探讨知识图谱在提高智能性方面的能力和效果。　　第7章在前面知识工程和知识图谱智能基础上搭建智能应用平台，介绍了平台的各类功能组件，描述了自下而上的软件服务封装逻辑，进一步向上封装为行业文本分析功能组件，包括检索、分析、挖掘、管理、预警、运营等。读者可以将这套思路在各行业进行实践验证，将上述组件和权限、安全板块集成为应用平台，搭建常态化文本分析运营平台，完成平台级别或各细分模块的商业产品落地。　　第8章依托智能应用平台，结合实践案例给出团队的应用经验，即通过四个行业案例来验证平台的认知能力。　　《自然语言理解与行业知识图谱：概念、方法与工程落地》以自然语言理解和行业知识图谱应用落地为目标，阐述了一个从0到1的行业文本理解案例。　　《自然语言理解与行业知识图谱：概念、方法与工程落地》为互联网企业的智能平台构建提供了很好的案例参考，也为行业信息化从业者提供了从入门到进阶的技术指导，适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书，也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。

推荐序一推荐序二前言符号表第1章自然语言之“理解”1 1.1 基本脉络5 1.1.1 文字传承6 1.1.2 机器处理8 1.1.3 理解困境9 1.2 商业曙光10 1.3 认知落脚点12 1.3.1 文本分析之锚13 1.3.2 走向智能之路14 1.3.3 **步在何方14 1.4 思辨未来14 1.4.1 语言理解与语义知识的辨析14 1.4.2 行业知识图谱构建问题15 小结15 参考文献16 第2章自然语言理解逻辑17 2.1 符号-连接-融合17 2.2 语言理解任务18 2.2.1 语法类任务20 2.2.2 语义类任务26 2.2.3 语用类任务34 2.3 语言理解体系42 小结43 参考文献44 第3章自然语言处理45 3.1 自然语言文本特征46 3.1.1 通用语言文本特征46 3.1.2 行业语言文本特征47 3.1.3 语言文本特征表示48 3.1.4 语言特征选择49 3.2 自然语言统计学习54 3.2.1 统计学习基础54 3.2.2 语言语料库65 3.2.3 语料采样66 3.2.4 语言模型67 3.3 自然语言机器学习69 3.3.1 文本分类方法69 3.3.2 文本标注方法84 3.3.3 文本聚类方法90 3.3.4 文本生成方法95 3.3.5 文本匹配方法97 3.3.6 图计算方法104 3.4 自然语言深度学习114 3.4.1 神经网络学习115 3.4.2 神经网络结构118 3.4.3 深度表示学习136 3.4.4 预训练语言模型139 3.4.5 前沿与思考148 小结149 参考文献149 第4章知识图谱150 4.1 语言知识与语言知识库150 4.2 知识图谱演进152 4.3 知识图谱工程153 4.3.1 知识表示154 4.3.2 知识加工158 4.3.3 知识建模与计算166 4.3.4 知识存储与查询168 4.3.5 知识更新170 4.4 知识图谱智能171 4.4.1 语义匹配171 4.4.2 搜索推荐172 4.4.3 问答对话174 4.4.4 推理决策175 4.4.5 区块链协作176 4.5 通用知识图谱177 4.5.1 百科知识图谱177 4.5.2 常识知识图谱179 4.5.3 中文类知识图谱180 4.6 行业知识图谱181 4.6.1 金融知识图谱182 4.6.2 医疗知识图谱186 4.6.3 教育知识图谱189 4.6.4 公安知识图谱191 4.6.5 司法知识图谱193 4.6.6 电商生活知识图谱194 4.6.7 图书文献知识图谱196 4.6.8 房地产知识图谱198 小结199 第5章行业知识工程实践201 5.1 行业知识库202 5.1.1 行业语料库203 5.1.2 行业术语知识库206 5.1.3 行业文本规则库216 5.1.4 行业特征字段库219 5.1.5 行业本体库220 5.1.6 行业附图库225 5.1.7 行业产品库227 5.1.8 行业标准库230 5.1.9 应用知识库232 5.2 行业模型算法库233 5.2.1 文本匹配233 5.2.2 文本分类237 5.2.3 文本标注248 5.2.4 文本生成255 5.2.5 关联图计算260 5.2.6 价值评估261 5.3 标注、训练和更新264 5.3.1 标注工具264 5.3.2 训练框架267 5.3.3 知识更新269 小结269 第6章行业知识图谱模块271 6.1 关键词助手273 6.1.1 术语图谱274 6.1.2 产品图谱277 6.2 搜索问答278 6.2.1 语义搜索279 6.2.2 功能搜索281 6.2.3 事实型问答283 6.3 推理计算284 小结288 第7章行业智能应用平台289 7.1 平台架构初探289 7.1.1 硬件拓扑架构290 7.1.2 平台系统架构290 7.1.3 功能服务架构293 7.2 平台认知功能组件293 7.2.1 文本检索293 7.2.2 文本分析298 7.2.3 文本挖掘306 7.2.4 监控预警311 7.2.5 价值运营312 7.2.6 信息流管理313 7.3 权限与安全管理314 7.3.1 架构与流程315 7.3.2 平台用户管理316 7.3.3 安全管理318 小结318 第8章行业文本智能应用320 8.1 高价值文本发现320 8.1.1 高价值文本定义320 8.1.2 高价值文本评价321 8.1.3 价值发现与价值运营321 8.2 成果分级分类管理322 8.2.1 成果分级323 8.2.2 成果分类323 8.3 新兴方向预测324 8.4 技术背景调查326 小结328 附录A 概率论基础330 附录B 信息论基础339

展开全部

作者简介

　　王楠，北京大学博士，“创青春-中关村U30”2020年度优胜者，先后任教于中国科学院、北京信息科技大学计算机学院。研究方向包括人工智能算法、知识图谱、自然语言处理与地球电磁学等。主持或参与国家科技重大专项、高分专项、军口预研、卫星系统、企业大数据系统等科研项目，累计获得研发经费超过千万元人民币。负责企业级“专利大数据智能分析系统”的研发，领导技术团队完成软件平台搭建、商用和优化。以作者身份发表行业内高水平论文十余篇，获得多项发明和实用新型专利，提交专利申请十余项。　　　　赵宏宇，现就职于腾讯看点搜索团队，担任算法研究员。有多年NLP、搜索系统、推荐系统的工作经验，涉及专利、招聘和网页搜索等场景。精通PyTorch、TensorFlow等主流深度学习框架，擅长运用NLP前沿技术解决工业项目难题。在意图识别、内容推荐、相关性排序等领域有多年实战经验。曾参与千万级用户求职领域的推荐工作，作为算法主要负责人，主导全新算法落地迭代、线上算法优化以及上亿DAU网页搜索优化迭代。曾与人合著《智能搜索与推荐系统：原理、算法与应用》一书。　　　　蔡月，清华-深圳湾实验室联合培养博士后，于2017年获得北京大学生物医学工程博士学位。曾担任东软医疗上海磁共振研发中心高级算法研究员。研究方向为数据科学、磁共振图像算法、深度学习等，擅长脑科学领域数据分析、磁共振图像加速、去噪等算法研究。曾在脑科学领域SCI期刊Neuroscience、Neurotoxicity Research上发表多篇文章，获得多项发明专利。

本类五星书