恩格拉拉里克  

个人博客https://blog.csdn.net/qq_37653144/article/details/89045363
python 中Librosa库提取MFCC特征所调用的函数关系图:

注意:
ECAPA-TDNN中关于MFCC特征的构建,其实并未使用到MFCC特征,因为ECAPA-TDNN中的mel频谱特征并未经过DCT变换,应该是直接使用到了fbank特征。

具体的原理:
fbank特征更多是希望符合声音信号的本质,拟合人耳的接收特性。DCT是线性变换,会丢失语音信号中原本的一些高度非线性成分。在深度学习之前,受限于算法,mfcc配GMMs-HMMs是ASR的主流做法。当深度学习方法出来之后,由于神经网络对高度相关的信息不敏感,mfcc不是最优选择,经过实际验证,其在神经网络中的表现也明显不如fbank。

posted on   恩格拉拉里克  阅读(137)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Blazor Hybrid适配到HarmonyOS系统
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 数据并发安全校验处理工具类
 
点击右上角即可分享
微信分享提示