包邮神经网络机器翻译技术及产业应用

1星价 ¥63.3 (7.1折)

2星价￥63.3 定价￥89.0

作者：王海峰

出版社：机械工业出版社

本类榜单：计算机/网络

分类：计算机/网络 > 计算机理论

暂无评论

图文详情

ISBN：9787111725206
装帧：一般胶版纸
册数：暂无
重量：暂无
开本：16开
页数：300
出版时间：2023-04-01
条形码：9787111725206 ; 978-7-111-72520-6

本书特色

适读人群：高年级本科生及研究生从业人员适读人群：研究生、科研人员、从业者等 ◆系统介绍神经网络机器翻译原理和主流技术 ◆结合丰富实例详尽讲解关键技术实现 ◆详细介绍产业级实用系统及产业应用

内容简介

本书以产业需求为牵引，介绍了新时期机器翻译的产业需求特点、神经网络机器翻译的原理与方法、近期新技术进展及产业应用。内容包括大规模翻译语料获取技术、机器翻译质量评价方法、神经网络机器翻译原理及主流方法、高性能机器翻译、多语言机器翻译、领域自适应、机器同声传译、大规模产业化应用等，兼具理论与实践，既有对原理与方法的介绍，又有丰富的产业应用案例。
本书可作为人工智能、自然语言处理、机器翻译等专业的高等院校高年级本科生及研究生、科研人员、技术开发人员以及语言服务行业从业人员的参考用书。

第1章绪论 1
1.1 机器翻译发展简介 3
1.2 机器翻译代表性方法 6
1.2.1 基于规则的机器翻译 6
1.2.2 统计机器翻译 8
1.2.3 神经网络机器翻译 11
1.3 发展现状 13
1.4 产业应用需求特点及挑战 15
1.4.1 高翻译质量 15
1.4.2 高系统性能 17
1.4.3 多语言翻译 18
1.4.4 领域自适应 19
1.4.5 跨模态翻译 20
1.5 本书结构 21
参考文献 24
第2章翻译语料获取与译文质量评价 27
2.1 概述 28
2.2 机器翻译语料库类型 31
2.2.1 双语语料库 31
2.2.2 单语语料库 33
2.3 公开语料库及系统评测 34
2.3.1 语言数据联盟与NIST评测 34
2.3.2 欧洲议会语料库与WMT评测 35
2.3.3 语音翻译语料库与IWSLT评测 35
2.3.4 中文语言资源联盟与CCMT评测 36
2.4 从互联网获取机器翻译语料 36
2.4.1 互联网双语语料存在形式 37
2.4.2 互联网语料常见问题 39
2.4.3 双语语料挖掘与加工 40
2.5 机器翻译质量评价 44
2.5.1 人工评价 44
2.5.2 自动评价 46
2.5.3 面向产业应用的评价 53
参考文献 55
第3章神经网络机器翻译 57
3.1 概述 59
3.2 基于循环神经网络的模型 62
3.2.1 基本模型 63
3.2.2 双向编码 65
3.2.3 注意力机制 66
3.2.4 长短时记忆与门控循环单元 68
3.3 基于卷积神经网络的翻译模型 71
3.4 全注意力模型 75
3.4.1 基本思想 76
3.4.2 模型结构 78
3.4.3 性能分析 79
3.5 非自回归翻译模型 80
3.6 搭建一个神经网络机器翻译系统 85
3.6.1 环境准备 85
3.6.2 模型训练 86
3.6.3 解码 88
3.6.4 效果评估 88
参考文献 89
第4章高性能机器翻译 93
4.1 概述 94
4.2 早期产业化神经网络机器翻译系统 96
4.2.1 百度神经网络机器翻译系统 97
4.2.2 谷歌神经网络机器翻译系统 101
4.3 Transformer模型优化 104
4.3.1 高效Transformer 105
4.3.2 针对机器翻译的优化 109
4.4 模型压缩 112
4.4.1 剪枝 112
4.4.2 量化 115
4.4.3 知识蒸馏 119
4.5 系统部署 121
4.5.1 分布式系统部署 121
4.5.2 智能硬件设备 122
4.6 开源工具 123
参考文献 124
第5章多语言机器翻译 131
5.1 概述 133
5.2 数据增强 134
5.2.1 基于枢轴语言的合成语料库方法 134
5.2.2 回译技术 136
5.3 无监督机器翻译 138
5.3.1 基本原理 139
5.3.2 跨语言向量映射 140
5.3.3 基于去噪自编码器和回译技术的翻译模型 142
5.3.4 基于对偶学习的机器翻译模型 144
5.4 多语言翻译统一建模 145
5.4.1 基于多任务学习的翻译模型 146
5.4.2 基于语言标签的多语言翻译模型 148
5.5 多语言预训练 151
5.5.1 预训练技术简介 152
5.5.2 多语言预训练模型 158
5.5.3 方法比较 163
5.6 多语言机器翻译系统 165
5.6.1 百度多语言机器翻译 165
5.6.2 谷歌多语言机器翻译 166
5.6.3 脸书多语言机器翻译 168
参考文献 169
第6章领域自适应 177
6.1 概述 179
6.2 领域数据增强 180
6.2.1 领域数据聚类 180
6.2.2 领域数据筛选 182
6.2.3 领域数据扩充 184
6.3 模型训练及优化 184
6.3.1 预训练加微调技术 185
6.3.2 领域数据加权训练 186
6.3.3 模型参数部分调优 187
6.3.4 基于知识蒸馏的领域自适应 188
6.3.5 基于课程表学习的领域自适应 189
6.4 专有名词和术语的翻译 190
6.4.1 前处理技术 191
6.4.2 后处理技术 193
6.4.3 融合专名/术语翻译的解码算法 193
6.5 翻译记忆库 195
6.5.1 基于记忆库的数据增强 196
6.5.2 融合记忆库的翻译模型 197
6.5.3 k-近邻翻译模型 198
6.6 面向产业应用的领域自适应解决方案 199
参考文献 200
第7章机器同声传译 207
7.1 概述 209
7.2 主要挑战 211
7.2.1 技术挑战 211
7.2.2 数据挑战 213
7.2.3 评价挑战 214
7.3 级联同传模型 216
7.3.1 wait-k模型 216
7.3.2 语义单元驱动的同传模型 220
7.3.3 基于强化学习的同传模型 224
7.3.4 基于单调无限回溯注意力机制的同传模型 226
7.4 端到端语音翻译及同传模型 228
7.4.1 从级联模型至端到端模型的过渡 229
7.4.2 基于多任务学习的端到端模型 231
7.4.3 语音识别与翻译交互解码模型 234
7.4.4 端到端同传模型 236
7.5 同传模型鲁棒性 241
7.5.1 融合音节信息的翻译模型 241
7.5.2 语音识别纠错 242
7.5.3 鲁棒性翻译模型 244
7.6 同传数据 245
7.6.1 欧洲语言同传语料库 246
7.6.2 日英同传语料库 247
7.6.3 中英同传语料库 247
7.7 同传评价 249
7.7.1 基于阅读理解的翻译质量评价 249
7.7.2 基于平均延迟的同传时延评价 250
7.7.3 综合翻译质量和同传时延的评价 252
7.8 机器同传系统及产品 252
7.8.1 机器同传系统 253
7.8.2 机器同传产品形式 254
7.8.3 机器辅助同传 254
7.9 搭建一个机器同传系统 256
7.9.1 数据准备 256
7.9.2 训练 257
7.9.3 解码 257
参考文献 258
第

展开全部

作者简介

王海峰，百度首席技术官，深度学习技术及应用国家工程研究中心主任。国际计算语言学学会（ACL）首位华人主席、ACL亚太分会创始主席、ACL Fellow、IEEE Fellow、CAAI Fellow。长期从事机器翻译、自然语言处理、深度学习等人工智能技术的研究及产业化工作。以**完成人身份获国家技术发明二等奖、国家科技进步二等奖、中国专利金奖、北京市科技进步一等奖、中国电子学会科技进步一等奖，获光华工程科技奖、全国创新争先奖、吴文俊人工智能杰出贡献奖等。何中军，百度人工智能技术委员会主席。长期从事机器翻译研究与开发，并致力于推动机器翻译大规模产业化应用。曾获国家科技进步二等奖、北京市科技进步一等奖、中国电子学会科技进步一等奖、中国专利银奖等多项奖励。被评为“中国电子学会优秀科技工作者”“北京青年榜样”等。吴华，百度技术委员会主席。长期从事机器翻译、自然语言处理、机器学习等技术的研究及产业化工作。曾获国家技术发明二等奖、国家科技进步二等奖、中国专利金奖、北京市科技进步一等奖、中国电子学会科技进步一等奖。被评为“杰出工程师”“青年北京学者”等。

本类五星书

更多>>

浏览历史

本类畅销

×

包邮神经网络机器翻译技术及产业应用

本书特色

内容简介

目录

作者简介

预估到手价 ×