语音特征参数MFCC计算过程
语音信号为从声道输入的速度波(输入信号),与声道形状(系统)卷积得到的声压波。语音信号的特征参数的提取正是对语音信号进行时域和频域的处理分离出声道形状(系统)的过程。声道形状(系统)也正是无论任何语音信号,只要每个字母或数字相同(它的发音就相同),它就在一定程度上相同的特征参量(频域共振峰(震荡的顶点)的包络)。
过程称为倒谱分析:(频域时对信号进行取对数处理)时域:卷积性;->fft频域:乘积性->梅尔滤波器组->频域取对数:乘积性—>加性;频率域幅度取对数->取逆变换(傅里叶变换),经低通滤波器取出包络可分离出系统,取出其中2到13个参量(一般)作为特征向量——共振峰的包络。
见:https://blog.csdn.net/zouxy09/article/details/9156785
总体过程
1.信号的预处理,包括预加重(Preemphasis),分帧(Frame Blocking),加窗(Windowing)。假设语音信号的采样频率fs=8KHz.由于语音信号在10-30ms认为是稳定的,则可设置帧长为80~240点。帧移可以设置为帧长的1/2.
2.对每一帧进行FFT变换,求频谱,进而求得幅度谱。
3.对幅度谱加Mel滤波器组(Mel滤波器组设计问题)。
4.对所有的滤波器输出做对数运算(Logarlithm),再进一步做离散余弦变换DCT可得MFCC。
一、预处理
通信知识之预加重与去加重.预加重(Pre-emphasis):发送端对输入信号高频分量的提升。 去加重(De-emphasis) :解调后对高频分量的压低。
口唇辐射:声压波/速度波
帧长:一帧所具有的采样点数。帧与帧的非重叠部分称为帧移
1.预加重:研究表明,口唇辐射在高频段比较明显,在低频段影响较小,辐射引起的能量损耗正比于辐射阻抗的实部,所以辐射模型R(z)应是一阶类高通滤波的形式,可以表示为:R(z) = R0(1-z^-1),它是一阶后向差分。在语音合成时,再进行“去加重”处理,就可以恢复原来的语音。
主要是提高高频分辨率。
2.分帧:假设语音信号的采样频率fs=8KHz.由于语音信号在10-30ms认为是稳定的。研究发现,语音信号在短时间内频谱特性保持平稳,即具有短时平稳特性。则可设置帧长为80~240点。帧移可以设置为帧长的1/2.(T=1/fs=0.125ms,0.125ms*80=10ms)
3.加窗:为了保持语音信号的短时平稳性,利用窗函数来减少由截断处理导致的Gibbs效应。用的最多的三种为矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。
二、求幅度谱
为了求其声谱图:将每一帧进行fft变换,然后将幅度越大的频率点用灰度级更高的方块表示。从坐标轴往上是频率增大的方向,色块的灰度级代表其对应频率的幅值。对整个语音信号,横轴是时间,纵轴为频率,色块的灰度级代表其对应频率的幅值就构成了声谱图。
三、对幅度谱加Mel滤波器组
人类听觉的感知只聚焦在某些特定的区域,而不是整个频谱包络。经实验发现mel频率倒谱系数符合人的听觉特征。在Mel频域内,人对音调的感知度为线性关系。举例来说,如果两段语音的Mel频率相差两倍,则人耳听起来两者的音调也相差两倍。
人耳的听觉特性与Mel频率的增长一致。与实际频率在1000Hz以下呈现线性分布,1000Hz以上呈现对数增长。在Mel频率轴上配置K个通道的三角形滤波器组,K的个数由信号的截止频率决定。
上式频率变换由梅尔尺度滤波器组完成,通常为24个滤波器。频率分布如图:(例为6滤波器的滤波器组)
四、对数运算、离散余弦变换DCT得到mfcc系数
1)取对数:log X[k] = log H[k] + log E[k]。
2)进行逆变换:x[k] = h[k] + e[k]
然后取低值(即为包络)得到MFCC系数。
2020-07-06
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步