- ISBN:9787111725206
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:300
- 出版时间:2023-04-01
- 条形码:9787111725206 ; 978-7-111-72520-6
本书特色
适读人群 :高年级本科生及研究生 从业人员适读人群 :研究生、科研人员、从业者等 ◆系统介绍神经网络机器翻译原理和主流技术 ◆结合丰富实例详尽讲解关键技术实现 ◆详细介绍产业级实用系统及产业应用
内容简介
本书可作为人工智能、自然语言处理、机器翻译等专业的高等院校高年级本科生及研究生、科研人员、技术开发人员以及语言服务行业从业人员的参考用书。
目录
1.1 机器翻译发展简介 3
1.2 机器翻译代表性方法 6
1.2.1 基于规则的机器翻译 6
1.2.2 统计机器翻译 8
1.2.3 神经网络机器翻译 11
1.3 发展现状 13
1.4 产业应用需求特点及挑战 15
1.4.1 高翻译质量 15
1.4.2 高系统性能 17
1.4.3 多语言翻译 18
1.4.4 领域自适应 19
1.4.5 跨模态翻译 20
1.5 本书结构 21
参考文献 24
第2章 翻译语料获取与译文质量评价 27
2.1 概述 28
2.2 机器翻译语料库类型 31
2.2.1 双语语料库 31
2.2.2 单语语料库 33
2.3 公开语料库及系统评测 34
2.3.1 语言数据联盟与NIST评测 34
2.3.2 欧洲议会语料库与WMT评测 35
2.3.3 语音翻译语料库与IWSLT评测 35
2.3.4 中文语言资源联盟与CCMT评测 36
2.4 从互联网获取机器翻译语料 36
2.4.1 互联网双语语料存在形式 37
2.4.2 互联网语料常见问题 39
2.4.3 双语语料挖掘与加工 40
2.5 机器翻译质量评价 44
2.5.1 人工评价 44
2.5.2 自动评价 46
2.5.3 面向产业应用的评价 53
参考文献 55
第3章 神经网络机器翻译 57
3.1 概述 59
3.2 基于循环神经网络的模型 62
3.2.1 基本模型 63
3.2.2 双向编码 65
3.2.3 注意力机制 66
3.2.4 长短时记忆与门控循环单元 68
3.3 基于卷积神经网络的翻译模型 71
3.4 全注意力模型 75
3.4.1 基本思想 76
3.4.2 模型结构 78
3.4.3 性能分析 79
3.5 非自回归翻译模型 80
3.6 搭建一个神经网络机器翻译系统 85
3.6.1 环境准备 85
3.6.2 模型训练 86
3.6.3 解码 88
3.6.4 效果评估 88
参考文献 89
第4章 高性能机器翻译 93
4.1 概述 94
4.2 早期产业化神经网络机器翻译系统 96
4.2.1 百度神经网络机器翻译系统 97
4.2.2 谷歌神经网络机器翻译系统 101
4.3 Transformer模型优化 104
4.3.1 高效Transformer 105
4.3.2 针对机器翻译的优化 109
4.4 模型压缩 112
4.4.1 剪枝 112
4.4.2 量化 115
4.4.3 知识蒸馏 119
4.5 系统部署 121
4.5.1 分布式系统部署 121
4.5.2 智能硬件设备 122
4.6 开源工具 123
参考文献 124
第5章 多语言机器翻译 131
5.1 概述 133
5.2 数据增强 134
5.2.1 基于枢轴语言的合成语料库方法 134
5.2.2 回译技术 136
5.3 无监督机器翻译 138
5.3.1 基本原理 139
5.3.2 跨语言向量映射 140
5.3.3 基于去噪自编码器和回译技术的翻译模型 142
5.3.4 基于对偶学习的机器翻译模型 144
5.4 多语言翻译统一建模 145
5.4.1 基于多任务学习的翻译模型 146
5.4.2 基于语言标签的多语言翻译模型 148
5.5 多语言预训练 151
5.5.1 预训练技术简介 152
5.5.2 多语言预训练模型 158
5.5.3 方法比较 163
5.6 多语言机器翻译系统 165
5.6.1 百度多语言机器翻译 165
5.6.2 谷歌多语言机器翻译 166
5.6.3 脸书多语言机器翻译 168
参考文献 169
第6章 领域自适应 177
6.1 概述 179
6.2 领域数据增强 180
6.2.1 领域数据聚类 180
6.2.2 领域数据筛选 182
6.2.3 领域数据扩充 184
6.3 模型训练及优化 184
6.3.1 预训练加微调技术 185
6.3.2 领域数据加权训练 186
6.3.3 模型参数部分调优 187
6.3.4 基于知识蒸馏的领域自适应 188
6.3.5 基于课程表学习的领域自适应 189
6.4 专有名词和术语的翻译 190
6.4.1 前处理技术 191
6.4.2 后处理技术 193
6.4.3 融合专名/术语翻译的解码算法 193
6.5 翻译记忆库 195
6.5.1 基于记忆库的数据增强 196
6.5.2 融合记忆库的翻译模型 197
6.5.3 k-近邻翻译模型 198
6.6 面向产业应用的领域自适应解决方案 199
参考文献 200
第7章 机器同声传译 207
7.1 概述 209
7.2 主要挑战 211
7.2.1 技术挑战 211
7.2.2 数据挑战 213
7.2.3 评价挑战 214
7.3 级联同传模型 216
7.3.1 wait-k模型 216
7.3.2 语义单元驱动的同传模型 220
7.3.3 基于强化学习的同传模型 224
7.3.4 基于单调无限回溯注意力机制的同传模型 226
7.4 端到端语音翻译及同传模型 228
7.4.1 从级联模型至端到端模型的过渡 229
7.4.2 基于多任务学习的端到端模型 231
7.4.3 语音识别与翻译交互解码模型 234
7.4.4 端到端同传模型 236
7.5 同传模型鲁棒性 241
7.5.1 融合音节信息的翻译模型 241
7.5.2 语音识别纠错 242
7.5.3 鲁棒性翻译模型 244
7.6 同传数据 245
7.6.1 欧洲语言同传语料库 246
7.6.2 日英同传语料库 247
7.6.3 中英同传语料库 247
7.7 同传评价 249
7.7.1 基于阅读理解的翻译质量评价 249
7.7.2 基于平均延迟的同传时延评价 250
7.7.3 综合翻译质量和同传时延的评价 252
7.8 机器同传系统及产品 252
7.8.1 机器同传系统 253
7.8.2 机器同传产品形式 254
7.8.3 机器辅助同传 254
7.9 搭建一个机器同传系统 256
7.9.1 数据准备 256
7.9.2 训练 257
7.9.3 解码 257
参考文献 258
第
作者简介
王海峰,百度首席技术官,深度学习技术及应用国家工程研究中心主任。国际计算语言学学会(ACL)首位华人主席、ACL亚太分会创始主席、ACL Fellow、IEEE Fellow、CAAI Fellow。长期从事机器翻译、自然语言处理、深度学习等人工智能技术的研究及产业化工作。以**完成人身份获国家技术发明二等奖、国家科技进步二等奖、中国专利金奖、北京市科技进步一等奖、中国电子学会科技进步一等奖,获光华工程科技奖、全国创新争先奖、吴文俊人工智能杰出贡献奖等。 何中军,百度人工智能技术委员会主席。长期从事机器翻译研究与开发,并致力于推动机器翻译大规模产业化应用。曾获国家科技进步二等奖、北京市科技进步一等奖、中国电子学会科技进步一等奖、中国专利银奖等多项奖励。被评为“中国电子学会优秀科技工作者”“北京青年榜样”等。 吴华,百度技术委员会主席。长期从事机器翻译、自然语言处理、机器学习等技术的研究及产业化工作。曾获国家技术发明二等奖、国家科技进步二等奖、中国专利金奖、北京市科技进步一等奖、中国电子学会科技进步一等奖。被评为“杰出工程师”“青年北京学者”等。
-
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥12.8¥32.0 -
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
机器学习
¥59.4¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
软件设计的哲学(第2版)
¥51.0¥69.8 -
智能算法优化及其应用
¥52.4¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
人工智能
¥29.4¥42.0 -
中文版PHOTOSHOP 2024+AI修图入门教程
¥59.3¥79.0 -
WPS办公软件应用
¥25.2¥36.0 -
格拉斯曼流行学习及其在图像集分类中的应用
¥13.7¥28.0 -
轻松上手AIGC:如何更好地向CHATGPT提问
¥40.3¥62.0 -
元宇宙的理想与现实:数字科技大成的赋能与治理逻辑
¥61.6¥88.0 -
云原生安全:攻防与运营实战
¥66.8¥89.0