个人博客https://blog.csdn.net/qq_37653144/article/details/89045363
python 中Librosa库提取MFCC特征所调用的函数关系图:
注意:
ECAPA-TDNN中关于MFCC特征的构建,其实并未使用到MFCC特征,因为ECAPA-TDNN中的mel频谱特征并未经过DCT变换,应该是直接使用到了fbank特征。
具体的原理:
fbank特征更多是希望符合声音信号的本质,拟合人耳的接收特性。DCT是线性变换,会丢失语音信号中原本的一些高度非线性成分。在深度学习之前,受限于算法,mfcc配GMMs-HMMs是ASR的主流做法。当深度学习方法出来之后,由于神经网络对高度相关的信息不敏感,mfcc不是最优选择,经过实际验证,其在神经网络中的表现也明显不如fbank。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Blazor Hybrid适配到HarmonyOS系统
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 数据并发安全校验处理工具类