- ISBN:9787111684534
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 开本:16开
- 页数:415
- 出版时间:2021-08-01
- 条形码:9787111684534 ; 978-7-111-68453-4
本书特色
谷歌首席科学家撰写,提出CARFAC模型(模拟耳蜗)+SAI(表征听觉神经模式),反对将耳蜗视作傅里叶分析器
内容简介
《人与机器听觉:听见声音的意义》由谷歌首席科学家Lyon撰写,是一部关于听觉研究的系统性学术著作。 《人与机器听觉:听见声音的意义》中提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,明确反对将耳蜗视作傅里叶频率分析器的做法。 《人与机器听觉:听见声音的意义》内容系统且全面,涵盖人类听觉原理、机器听觉理论、精密听觉模型建模和机器听觉应用实例,还包括对听觉研究史上的标志性人物及事例的介绍。 《人与机器听觉:听见声音的意义》对数学原理的阐释脉络清晰,并配有算法源码,适合相关领域的技术人员和研究人员参考,也适合作为高等院校相关研究生课程的教材。 《人与机器听觉:听见声音的意义》构建了一套完整的听觉理论框架,具有鲜明的学术观点和创作特色: 创造性地提出利用CARFAC模型模拟耳蜗对声音信号的分析,利用带有精细时序结构的SAI表征听觉神经模式,强调将听觉模型引入机器听觉应用,反对将耳蜗视作傅里叶频率分析器的做法。 将听觉系统划分为四层,在底层听觉过程模拟的基础上探索高层信息处理机制并验证模型的有效性,为远近场模型等问题的解决以及CASA等技术的落地提供理论支撑,同时拓展了研究思路。 全面涵盖人类听觉原理、机器听觉理论、精密听觉模型建模方法以及利用机器学习方法构建的应用实例,不仅对研究现状进行了系统梳理,而且穿插着对听觉研究史上标志性人物和事例的介绍。 对听觉问题的阐释直击本质,对相关数学表述及推导过程的讲解尤为清晰明了,无须复杂的专业知识也能逐步理解。此外,所有听觉处理算法均配有可免费下载的源代码,便于读者实践。
目录
序言
前言
关于作者
**部分 声音分析与表征概述
第1章 引言
1.1 DavidMarr论视觉与听觉
1.2 自上而下与自下而上分析
1.3 神经模拟方法
1.4 听觉图像
1.5 耳朵是频率分析器吗
1.6 第三音
1.7 声音理解与意义提取
1.8 机器视觉与机器学习技术的利用
1.9 本书的内容安排
第2章 听觉理论
2.1 一种“新”的听觉理论
2.2 更新的听觉理论
2.3 主动与非线性听觉理论
2.4 听觉三元理论
2.5 听觉图像理论
第3章 对数及幂律听觉
3.1 对数与幂律
3.2 对数频率
3.3 对数功率
3.4 Bode图
3.5 感知映射
3.6 恒Q值分析
3.7 对数应用注意事项
第4章 人类听觉概述
4.1 人机对比
4.2 听觉生理学
4.3 听觉中的关键问题
4.4 响度
4.5 临界频带、掩蔽与抑制
4.6 音高感知
4.7 音色
4.8 协和与不协和
4.9 语音感知
4.10 双耳听觉
4.11 听觉流
4.12 非线性
4.13 后续建议
第5章 声学方法与听觉修正
5.1 声音、语音与音乐建模
5.2 短时谱分析
5.3 谱的平滑与变换
5.4 源一滤波器模型与同态信号处理
5.5 摆脱对数
5.6 听觉频率尺度
5.7 mel频率倒谱
5.8 线性预测编码
5.9 PLP与RASTA
5.10 自动语音识别中的听觉技术
5.11 必要的改进
第二部分 听觉的系统理论
第6章 线性系统引言
6.1 平滑:恰当的起点
6.2 线性时不变系统
6.3 滤波器与频率
6.4 微分方程与齐次解
6.5 冲激响应
6.6 因果性与稳定性
6.7 卷积
6.8 本征函数与传递函数
6.9 频率响应
6.10 变换与运算方法
6.11 有理函数及其零极点
6.12 传递函数增益与相位的图解计算
6.13 卷积定理
6.14 级联、并联与反馈结构中滤波器的互联
6.15 总结及后续安排
第7章 离散时间与数字系统
7.1 计算机模拟系统
7.2 离散时间线性移不变系统
7.3 冲激响应与卷积
7.4 离散时间系统中的频率
7.5 Z变换及其逆变换
7.6 单位超前算子与单位延迟算子
7.7 滤波器与传递函数
7.8 采样与混叠
7.9 自连续时间系统的映射
7.10 滤波器设计
7.11 数字滤波器
7.12 多输入输出
7.13 傅里叶分析与频谱图
7.14 观点及拓展阅读
第8章 谐振器
……
第三部分 听觉外周
第四部分 听神经系统
第五部分 机器学习及应用
中英文术语对照表
参考文献
作者简介
理查德·F.里昂(Richard F.Lyon),谷歌公司首席科学家,IEEE Fellow,ACM Fellow。他目前主要负责谷歌机器听觉方向的研发工作,其团队开发了用于谷歌街景的相机系统。他的研究兴趣包括用于声音分析及可视化的耳蜗模型和听觉相关谱图,以及这些模型的模拟电路及VLSI数字实现。在加入谷歌之前,他曾在施乐公司、斯伦贝谢公司和苹果公司从事相关研发工作。此外,他还拥有包括光电鼠标在内的58项美国发明专利授权。 朱维彬,博士,北京交通大学信息科学研究所副教授,主要从事言语信息处理理论及应用研究,涉及语义的言语表现及计算、言语情感分析及建模。曾在IBM中国研究中心任研究员,从事语音声学模型、韵律建模和言语数据库的研究。 高莹莹,博士,毕业于北京交通大学信息科学研究所,研究方向为言语情感生成建模。现就职于中国移动研究院人工智能与智慧运营中心,主要从事语音识别、端到端一体化建模的研究。
-
AI绘画+AI摄影+AI短视频从入门到精通
¥45.5¥79.8 -
企业AI之旅
¥43.5¥79.0 -
乡村振兴新技术:新时代农村短视频编辑技术基础入门
¥11.2¥32.0 -
机器学习
¥59.4¥108.0 -
C Primer Plus 第6版 中文版
¥62.6¥108.0 -
基于知识蒸馏的图像去雾技术
¥61.6¥88.0 -
基于深度学习的人体行为识别算法研究
¥37.2¥62.0 -
粒子群算法在优化选取问题中的应用研究
¥40.8¥68.0 -
智能优化算法MATLAB仿真实例
¥54.0¥90.0 -
Web前端开发基础
¥36.5¥57.0 -
智能算法优化及其应用
¥49.0¥68.0 -
Photoshop图像处理
¥25.5¥49.0 -
SNS信息传播分析
¥48.3¥69.0 -
R语言医学数据分析实践
¥72.3¥99.0 -
大模型推荐系统:算法原理、代码实战与案例分析
¥62.3¥89.0 -
HARMONYOS NEXT启程:零基础构建纯血鸿蒙应用
¥81.0¥108.0 -
剪映 从入门到精通
¥25.7¥59.8 -
游戏造梦师----游戏场景开发与设计
¥67.6¥98.0 -
SAR图像处理与检测
¥35.4¥49.8 -
生成式人工智能(AIGC)应用
¥71.1¥90.0