×
语音识别:模式、算法设计与实践

语音识别:模式、算法设计与实践

1星价 ¥67.3 (6.8折)
2星价¥67.3 定价¥99.0
暂无评论
图文详情
  • ISBN:9787113304225
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 开本:16开
  • 页数:340
  • 出版时间:2024-01-01
  • 条形码:9787113304225 ; 978-7-113-30422-5

本书特色

(1)理论与实践相结合 读者不仅可以看到理论模型的设计思想 ,还可以通过代码实践加深对算法的理解 , 可以看到算法是如何去解决具体的语音识别问题的。 (2)语言有亲和力 在不失严谨的前提下 ,增加文字表达的活泼度和内容表达的图形化展示程度,保证读者能够 一步 一步地深入理解 , 而不是仅仅停留在数学公式的简单介绍层面。 (3)分享作者多年的经验 ,让内容“有血有肉” 在书中适当位置嵌入过来人的思考和经验,一 来让读者避坑 , 二 来提供 一 些问题的解决思路。 (4)案例丰富 本书融入了多个案例 , 目的是展示算法是如何解决实际问题的 。 同时 ,横向算法的比较也很必要 ,这样能帮助读者透彻理解不同算法的优缺点。

内容简介

随着深度学习技术和计算机硬件设备的发展,作为人工智能领域重要课题的语音识别技术发展迅速,部分应用开始落地,实践流程也日渐成熟。本书凝聚作者多年实践心得和经验,力求用抽丝剥茧的方式帮读者梳理出语音识别的学习与提升之路,涉及语音识别发展脉络、知识地图、模式识别、核心算法和实践案例,*终形成“基础知识—算法理论—实践”的完整的闭环。在具体的写作中,本书力求梳理清楚经典算法之间的逻辑关联,并对其在实践案例中的具体应用作出细致描述,帮助读者实现原理与实践之间的平滑过渡。

目录

第1章 语音识别概述 1.1 走进语音识别 1.1.1 语音识别的定义 1.1.2 语音识别任务的分类 1.1.3 语音识别是一门交叉学科 1.1.4 语音识别的应用 1.2 发展概况 1.2.1 人工语音识别 1.2.2 自动化语音识别 1.3 面临的挑战 1.3.1 语音信号的复杂性 1.3.2 机器学习模型的局限性 1.3.3 硬件设备的制约 1.3.4 应用场景的复杂性 1.3.5 伦理问题 第2章 必知必会的数学基础知识 2.1 向量与矩阵 2.1.1 向量 2.1.2 矩阵 2.2 概率与统计 2.2.1 概率基础 2.2.2 分类分布 2.2.3 数据的标准模型——高斯分布 2.2.4 适用性极为广泛的贝叶斯定理 2.3 基本函数的用法 2.3.1 一元一次函数 2.3.2 一元二次函数 2.3.3 神经网络中不得不提的阶跃函数 2.4 函数的求导 2.4.1 一元函数的导数 2.4.2 多元函数的偏导数 2.4.3 复合函数的导数计算法则 2.4.4 线性模型寻找*优参数的方法——*小二乘法 2.4.5 非线性模型求解*小值的方法——梯度下降法 2.4.6 适用于复杂模型的参数优化方法——正则化 2.5 数列和递推公式 2.5.1 数列的定义 2.5.2 数列的通项公式 2.5.3 由递推关系式定义数列 第3章 模式识别 3.1 模式识别的基本概念 3.1.1 我们应该怎样理解模式识别 3.1.2 统计模式识别系统的组成 3.1.3 示例:一个橘子分类系统 3.1.4 模式识别发展史中的里程碑事件 3.2 关于数据集的准备 3.2.1 数据的收集 3.2.2 数据集的划分 3.3 预处理 3.3.1 预处理的内涵 3.3.2 常见的预处理思路 3.4 特征提取 3.4.1 特征向量和特征空间 3.4.2 特征提取的流程 3.4.3 常见的语音特征表示 3.4.4 特征选择 3.5 分类器 3.5.1 监督学习算法 3.5.2 统计分类器 3.5.3 深度神经网络模型 3.6 语言模型 3.6.1 N-gram语言模型 3.6.2 实践案例:计算“梅吃饼干”出现的概率 3.6.3 N-gram模型中平滑的重要性 3.7 识别效果的评价 3.7.1 错词率 3.7.2 句错率 第4章 语音信号处理 4.1 导言 4.2 语音的产生 4.2.1 语音学在研究什么 4.2.2 人的发声机制 4.2.3 语音产生的数字模型 4.2.4 发音的基本单位 4.2.5 识别连续发音的难点 4.3 语音的传播 4.3.1 语音的物理传播原理 4.3.2 语音传播的声学机制 4.3.3 无损声道模型 4.4 语音的感知 4.4.1 人耳可感知的频率范围 4.4.2 人耳的听觉特性 4.4.3 听觉模型 4.5 数字语音信号处理 4.5.1 语音信号处理的一般流程 4.5.2 数据采样 4.5.3 参数化分析 4.5.4 图形化表示 4.5.5 数字化特征分析 第5章 实践前的准备:安装必要的Python包 5.1 一些必要的交代 5.2 基础的语音识别包:speechRecognition 5.2.1 SpeechRecognition的主要接口 5.2.2 SpeechRecognition的安装与导入 5.2.3 应用案例:调用不同接口识别英文和中文语音 5.3 语音分析库:Librosa 5.3.1 Librosa的主要接口 5.3.2 Librosa的安装与导入 5.3.3 应用案例:绘制语音信号的波形图和Me1时频谱图 5.4 精于数组运算的库:NumPy 5.4.1 Numpy的安装与导入 5.4.2 Numpy数组的生成 5.4.3 访问Numpy数组中的元素 5.4.4 Numpy数组的算术运算 5.5 科学计算的工具包:Scipy 5.5.1 Scipy的核心功能模块 5.5.2 Scipy的安装与导入 5.5.3 应用案例:*小二乘法拟合直线 5.6 机器学习算法的工具包:scikit-1earn 5.6.1 Sk1earn的主要接口 5.6.2 Sk1earn的安装与导入 5.6.3 应用案例:鸢尾花的分类问题 5.7 工业级深度学习框架:Keras 5.7.1 Keras的主要接口 5.7.2 Keras的安装与导入 5.7.3 应用案例:利用Keras搭建神经网络实现手写数字识别 5.8 科学研究深度学习框架:PyT0rch 5.8.1 PyTorch的主要库和模块 5.8.2 PyTorch的安装 5.8.3 应用案例:利用PyT0rch搭建神经网络实现手写体识别 第6章 数据预处理 6.1 语音信号分析基础 6.2 语音信号的参数化分析 6.2.1 时域分析 6.2.2 频谱分析 6.2.3 倒谱分析 6.2.4 三种语音信号分析方法的比较 6.3 去噪算法 6.3.1 什么是去噪 6.3.2 谱减法 6.3.3 维纳滤波算法 6.3.4 LMS自适应滤波器算法 6.3.5 基于机器学习的去噪算法 6.4 端点检测算法 6.4.1 什么是端点检测 6.4.2 基于短时平均能量和过零率的自适应双门限算法 6.4.3 基于相关函数的端点检测算法 6.4.4 基于倒谱距离的端点检测算法 6.4.5 基于频谱方差的端点检测算法 第7章 特征提取算法 7.1 特征提取算法概述 7.1.1 特征提取算法的设计要求 7.1.2 特征提取算法的两大阵营 7.2 基于时域变换的特征 7.2.1 短时振幅包络 7.2.2 短时平均能量 7.2.3 过零率 7.2.4 示例:基于时域信号的特征提取 7.3 基于傅里叶变换的频域特征 7.3.1 频率中心 7.3.2 共振峰 7.4 基于倒谱变换的特征 7.4.1 线性预测倒谱系数 7.4.2 梅尔倒谱系数 7.4.3 示例:通过Librosa计算MFCC特征及衍生特征 7.5 基于神经网络的特征图 7.5.1 基于神经网络的特征学习算法 7.5.2 示例:利用Resnet-50网络结构生成特征图 第8章 基于机器学习的分类算法 8.1 传统机器学习分类算法简介 8.2 基于有监督学习的分类算法 8.2.1 K邻近算法 8.2.2 示例:KNN算法实现二分类 8.3 基于无监督学习的分类模型 8.3.1 Kmeans算法 8.3.2 示例:利用Kmeans算法对砂糖橘特征做聚类 8.3.3 高斯混合模型 8.3.4 示例:利用GMM实现二维特征的聚类 8.4 基于序列数据分类的隐马尔可夫模型 8.4.1 HMM模型 8.4.2 示例:HMM在序列数据分类中的应用 8.5 适用于线性分类和非线性分类的算法 8.5.1 SVM算法 8.5.2 示例:基于SM0算法实现SVM分类器 第9章 基于深度学习的分类模型 9.1 深度学习技术简介 9.2 卷积神经网络模型 9.2.1 CNN的基本结构 9.2.2 示例:CNN实现数字手写体图片的分类 9.3 循环神经网络 9.3.1 RNN的基本结构 9.3.2 示例:TextRNN对句子下一个词语的预测 9.4 长短时记忆网络 9.4.1 LSTM的基本原理 9.4.2 示例:LSTM预测余弦函数的趋势 9.5 预训练模型 9.5.1 预训练的由来与意义 9.5.2 预训练模型的三大核心技术 9.5.3 用于语音识别的WavML预训练模型 第10章 搭建基于GMM-HMM模型的语音识别系统 10.1 动手前的分析 10.1.1 任务分析 10.1.2 流程设计 10.2 数据收集 10.2.1 数据集初探 10.2.2 数据集的处理 10.3 预处理:数据的频域表示 10.4 特征提取:频率峰值的计算 10.5 分类模型:GMM-HMM 10.6 结果分析与算法评价 10.6.1 测试效果的统计 10.6.2 分类结果的分析 第11章 搭建基于LSTM模型的语音分类系统 11.1 初期分析 11.1.1 目标和实现思想 11.1.2 基本处理流程 11.2 安装必要的Python库 11.3 读取音频文件和标签 11.4 提取MFCC特征 11.5 构建双向LSTM模型 11.6 模型的训练 后记
展开全部

作者简介

董雪燕,北京联合大学讲师,澳大利亚昆士兰科技大学计算机科学博士,主要研究领域为语音识别,以**作者身份发表数十篇SCI,EI英文文章,国内核心期刊文章2篇;回国后参加设计和编写多个自然语言处理(偏重于语音识别模块)的实践项目。

预估到手价 ×

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格(不含优惠券部分),仅供参考,未必等同于实际到手价。

确定
快速
导航