摘要: 这次要讲的是语音处理中常用的特征值 -- Mel频谱图(Mel Spectrogram)和Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC)。 什么是Mel? Mel是S. S. Stevens等人于1937年发表的论文$^{[1]}$中定义的一种 阅读全文
posted @ 2023-04-02 21:09 gewy 阅读(2824) 评论(0) 推荐(0) 编辑
摘要: 这篇文章讲下短时傅里叶变换(Short-Time Fourier Transform, STFT) 为什么要对语音信号进行STFT? 首先,语音信号由随时间变化的各种频率和振幅组成。我五秒前说过的字和我现在正在说的字组成了我要表达的信息,由于发声器官的变化,每个字都具有不同的频率特性。对语音中的频率 阅读全文
posted @ 2023-03-26 00:04 gewy 阅读(342) 评论(0) 推荐(0) 编辑
摘要: 为什么要了解加窗? 先扯远点讲。由于自己基础知识薄弱,导致我以前对行业内各种基础流程都是闭眼过。我的想法是,既然在几十年里大家都默认这么操作,那我的任务也不是在这种流程里挑刺,省下的脑筋可以用来研究这个阶段/时代该研究的东西。 我做实验也是,代码先跑起来看效果,如果效果不好那为什么还要花几天时间去了 阅读全文
posted @ 2023-03-19 15:47 gewy 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 为什么需要DFT 数字语音信号是离散时间信号,对其进行频域分析可以通过离散时间傅里叶变换(Discrete-time Fourier transform, DTFT)或者离散傅里叶变换(Discrete Fourier transform, DFT)。二者的区别在于,DTFT作用于时域离散的非周期信 阅读全文
posted @ 2023-03-16 02:28 gewy 阅读(486) 评论(0) 推荐(0) 编辑
摘要: 博客的目的,内容和写作风格。 阅读全文
posted @ 2023-03-01 02:15 gewy 阅读(16) 评论(0) 推荐(0) 编辑