×
超值优惠券
¥50
100可用 有效期2天

全场图书通用(淘书团除外)

关闭
语音识别:原理与应用(第2版)

语音识别:原理与应用(第2版)

1星价 ¥96.6 (7.0折)
2星价¥96.6 定价¥138.0
暂无评论
图文详情
  • ISBN:9787121446337
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:其他
  • 页数:364
  • 出版时间:2022-12-01
  • 条形码:9787121446337 ; 978-7-121-44633-7

本书特色

语音识别领域经典著作升级版∣系统梳理经典算法、前沿技术与工程实践∣全彩印刷√配合大量插图,详解语音识别原理√夯实基础理论和关键技术,提高实战技能√工程实践方法剖析:Kaldi、ESPnet和WeNet等洪青阳老师是国内语音信息处理领域的著名学者。本书从语音信号处理的知识讲起,覆盖了概率模型和神经网络时代语音识别领域的代表性算法,兼顾了历史沉积和技术前沿。书中既包括理论知识,也包括算法原理,同时给出了动手实践的案例,集理论性与实操性于一体,可见作者用心细致。通过本书的学习,读者将获得语音识别的基础知识和前沿视野,为进一步研究打下坚实的基础。 清华大学副研究员/语音语言研究中心副主任 王东 洪老师的《语音识别:原理与应用(第2版)》是一本优秀的人工智能领域的教材。它既有语音技术基本原理和语音识别基础框架的讲解,又有*新前沿技术的阐述,娓娓道来,润物无声,使读者从入门循序渐进地深入技术前沿。同时,本书还详细介绍了语音识别的工程实践方法,帮助读者迅速掌握语音识别的落地技术。这两方面是本书区别于现有教材的显著特色。 中国科学院声学研究所研究员/博士生导师 赵庆卫 我从九几年毕业到现在一直从事电信行业的语音应用开发工作。电信行业语音识别**次大规模应用应该是21世纪初的语音电话本和彩铃搜索。然而,由于受到环境、信道和口音的影响,语音识别基本只是受限的应用,特别是在8kHz电话信道下,要提高识别率还需要不断地研究和实践。国内兼顾理论研究和工程应用的语音识别类书籍还很少,本书是介绍语音识别较为全面的一本书。书中不仅介绍了语音识别相关理论,而且详细介绍了诸如Kaldi工具的使用和封装、云服务等开发实践。因此,本书对于那些希望将理论转换成能实际投产的生产系统的研究人员极具实用性,对于从事语音识别应用集成开发的工程师也具有参考价值。 资深CTI专家/《百问FreeSwitch》作者 余洪涌 洪青阳老师在智能语音领域耕耘多年,桃李天下。今倾心编写本书,把语音识别领域的技术一一道来,本人作为证券行业从业者,并非语音专业人士,但读完本书有一种茅塞顿开的感觉。如今语音识别、语音合成和声纹识别技术在证券行业拥有广泛的应用场景,相信读者学习完本书,能够更加深刻地理解语音识别的技术原理和应用技巧。建议金融行业身居客服、运营等技术创新岗位的同仁阅读学习。 东方证券股份有限公司系统研发部总监 包怡军 人工智能特别是智能语音技术在证券行业得到空前发展,这得益于大数据方面的积累,源于开源社区对深度学习算法的研究,以及GPU等硬件加速技术的算力加持。洪青阳和李琳老师带领厦门大学智能语音实验室团队,在语音识别技术方面进行了系统、深入及全面的研究,终得以成就本书。拜读后深深感到,书中所提及的有关技术,正在被金融证券智能化语音场景(如智能外呼、智能审核、智能质检、智能双录、智能运营等)广泛使用,具有极强的实用性。书中所述的对声学模型与语言模型的调优方法,有着作者独到的见解。推荐致力于从事智能语音技术和算法研究的人士阅读。 上海掌数科技有限公司总经理 刘建上海掌数科技有限公司技术总监 高星

内容简介

本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手操作,提高实战技能,本书*后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。

目录

第1章 语音识别概论 1 1.1 语音的产生和感知 1 1.2 语音识别过程 4 1.3 语音识别发展历史 8 1.4 国内语音识别现状 15 1.5 语音识别建模方法 18 1.5.1 DTW 19 1.5.2 GMM-HMM 19 1.5.3 DNN-HMM 20 1.5.4 E2E模型 22 1.6 语音识别开源工具 22 1.7 常用语音识别数据库 23 1.8 语音识别评价指标 24 1.9 参考资料 25 第2章 语音信号基础 28 2.1 声波的特性 28 2.2 声音的接收装置 29 2.2.1 麦克风的性能指标 30 2.2.2 麦克风阵列 31 2.3 声音的采样 32 2.4 声音的量化 33 2.5 语音的编码 35 2.6 WAV文件格式 39 2.7 WAV文件分析 40 2.8 本章小结 43 思考练习题 43 第3章 语音特征提取 44 3.1 预处理 44 3.2 短时傅里叶变换 48 3.3 听觉特性 51 3.4 线性预测 54 3.5 倒谱分析 55 3.6 常用的声学特征 56 3.6.1 语谱图 57 3.6.2 FBank 58 3.6.3 MFCC 59 3.6.4 PLP 60 3.7 本章小结 62 思考练习题 63 第4章 HMM 64 4.1 HMM的基本概念 66 4.1.1 马尔可夫链 67 4.1.2 双重随机过程 68 4.1.3 HMM的定义 69 4.2 HMM的三个基本问题 70 4.2.1 模型评估问题 71 4.2.2 *佳路径问题 74 4.2.3 模型训练问题 76 4.3 本章小结 78 4.4 参考资料 79 思考练习题 79 第5章 GMM-HMM 80 5.1 概率统计 81 5.2 高斯分布 82 5.3 GMM 85 5.3.1 初始化 86 5.3.2 重估计 87 5.4 GMM与HMM的结合 88 5.5 GMM-HMM的训练 94 5.6 模型自适应 96 5.6.1 MAP 96 5.6.2 MLLR 97 5.6.3 fMLLR 97 5.6.4 SAT 98 5.7 本章小结 98 5.8 参考资料 98 思考练习题 99 第6章 基于HMM的语音识别 100 6.1 建模单元 100 6.2 发音过程与HMM状态 103 6.3 串接HMM 104 6.4 固定语法的识别 108 6.5 随机语法的识别 113 6.6 音素的上下文建模 119 6.6.1 协同发音 120 6.6.2 上下文建模 121 6.6.3 决策树 122 6.6.4 问题集 123 6.6.5 三音子模型的训练 128 6.7 本章小结 129 思考练习题 130 第7章 DNN-HMM 131 7.1 深度学习 131 7.2 DNN 132 7.2.1 激活函数 133 7.2.2 损失函数 135 7.2.3 梯度下降算法 136 7.3 DNN与HMM的结合 138 7.4 不同的DNN结构 142 7.4.1 CNN 143 7.4.2 LSTM 147 7.4.3 GRU 147 7.4.4 TDNN 148 7.4.5 TDNN-F 151 7.5 本章小结 154 7.6 参考资料 155 思考练习题 155 第8章 语言模型 156 8.1 n-gram模型 158 8.2 评价指标——困惑度 162 8.3 平滑技术 163 8.3.1 Good-Turing折扣法 163 8.3.2 Witten-Bell折扣法 165 8.3.3 Katz回退法 166 8.3.4 Jelinek-Mercer插值法 169 8.3.5 Kneser-Ney插值法 170 8.4 语言模型的训练 172 8.5 神经网络语言模型 175 8.6 本章小结 180 8.7 参考资料 180 思考练习题 181 第9章 WFST解码器 183 9.1 基于动态网络的Viterbi解码 184 9.2 WFST理论 189 9.3 HCLG构建 193 9.3.1 H的构建 194 9.3.2 C的构建 195 9.3.3 L的构建 196 9.3.4 G的构建 197 9.3.5 HCLG合并 200 9.4 WFST的Viterbi解码 202 9.4.1 Token的定义 202 9.4.2 Viterbi算法 203 9.5 Lattice解码 210 9.5.1 主要数据结构 211 9.5.2 令牌传播过程 212 9.5.3 剪枝策略 215 9.5.4 Lattice 216 9.6 本章小结 218 9.7 参考资料 218 思考练习题 218 第10章 序列区分性训练 219 10.1 区分性准则 220 10.1.1 MMI 220 10.1.2 BMMI 221 10.1.3 MPE/sMBR 221 10.2 MMI求导过程 222 10.3 Lattice-based MMI 224 10.4 Lattice-free MMI 226 10.5 Kaldi Chain模型 228 10.6 本章小结 230 10.7 参考资料 230 思考练习题 231 第11章 端到端语音识别 232 11.1 CTC 233 11.1.1 损失函数 234 11.1.2 前向算法 238 11.1.3 后向算法 241 11.1.4 求导过程 242 11.1.5 CTC解码 244 11.2 RNN-T 247 11.3 基于Attention的Encoder-Decoder模型 250 11.4 Hybrid CTC/Attention 253 11.5 Transformer 255 11.6 Conformer 258 11.7 本章小结 259 11.8 参考资料 259 思考练习题 261 第12章 Kaldi实践 262 12.1 下载与安装Kaldi 263 12.1.1 获取源代码 263 12.1.2 编译 264 12.2 创建和配置基本的工程目录 265 12.3 aishell语音识别工程 266 12.3.1 数据集映射目录准备 267 12.3.2 词典准备和lang目录生成 269 12.3.3 语言模型训练 271 12.3.4 声学特征提取与倒谱均值归一化 273 12.3.5 声学模型训练与强制对齐 275 12.3.6 解码测试与指标计算 277 12.4 本章小结 279 第13章 ESPnet实践 280 13.1 数据准备 280 13.1.1 映射文件准备 280 13.1.2 特征提取 281 13.1.3 数据扩增 282 13.1.4 词典生成 282 13.1.5 数据打包 283 13.2 ESPnet配置文件 284 13.3 语言模型训练 286 13.4 声学模型训练 287 13.4.1 声学模型训练脚本 287 13.4.2 CTC声学模型训练 288 13.4.3 Attention声学模型训练 289 13.4.4 RNN-T模型训练 290 13.4.5 Transformer模型训练 292 13.5 语音识别解码 293 13.6 ESPnet训练解码可视化 294 13.6.1 ESPnet训练参数可视化 294 13.6.2 ESPnet中的Attention可视化 295 13.6.3 ESPnet解码结果可视化 296 13.7 ESPnet2 297 13.7.1 ESPnet2与ESPnet 297 13.7.2 数据准备 298 13.7.3 配置文件 299 13.7.4 模型训练 300 13.7.5 训练日志与可视化 303 13.7.6 性能对比 304 13.8 本章小结 305 13.9 参考资料 305 第14章 WeNet实践 306 14.1 数据准备 306 14.1.1 映射文件准备 306 14.1.2 CMVN计算 307 14.1.3 词典生成 307 14.1.4 数据打包 307 14.2 WeNet配置文件 308 14.3 声学模型训练 309 14.3.1 声学模型训练脚本 309 14.3.2 Transformer模型训练 310 14.3.3 Conformer模型训练 313 14.3.4 Unified Conformer模型训练 314 14.3.5 U2++ Conformer模型训练 315 14.4 Python环境解码 315 14.5 WeNet 模型部署 317 14.5.1 模型导出 317 14.5.2 语言模型训练 317 14.5.3 结合语言模型的解码 318 14.6 WeNet 解码结果可视化 318 14.7 本章小结 319 14.8 参考文献 319 第15章 工业应用实践 320 15.1 应用场景 321 15.2 引擎优化 323 15.2.1 Kaldi方案 323 15.2.2 WeNet方案 327 15.3 工程部署 330 15.3.1 SDK封装 330 15.3.2 语音云平台 338 15.3.3 Kaldi嵌入式移植 342 15.3.4 WeNet端侧部署 344 15.4 本章小结
展开全部

作者简介

洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然科学基金三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领XMUSPEECH团队连续两届获东方语种识别(OLR)竞赛**名,成功研发国内**套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数、鼎桥等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十几个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从*早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到*新的端到端(E2E)语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。 李琳,厦门大学副教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金一项,负责国家科技部重点研发计划项目子课题一项,曾获福建省科技进步奖二等奖、福建省教学成果奖二等奖、厦门市科技进步奖一等奖。参与指导XMUSPEECH团队连续两届获东方语种识别竞赛**名。国际IEEE学会会员,CCF高级会员,CCF语音对话与听觉专业委员会委员,NCMMSC常设机构委员会委员。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航