常见的音频特征

1. 频谱、倒谱、时频谱和功率谱

频谱:
将一段时域信号通过离散傅里叶变换后,将频率作为横轴,幅度作为纵轴。

相位频谱:
将一段时域信号通过离散傅里叶变换后,将频率作为横轴,相位作为纵轴。

倒谱:
将频谱的对数作为信号,进行傅里叶变换后得到的新的频谱,此时其横轴被称为倒频率(quefrency)。倒谱的函数在于,能够将时域的卷积运算变成倒谱域的加法运算。

时频谱:
时频谱是指信号经过短时傅里叶变换后,得到的以时间为横轴、频率为纵轴、颜色或灰度表示幅度的图像。

功率谱(power spectrum)
有时我们将频谱或时频谱中的幅值替换为幅值的平方,并称之为功率谱(power spectrum)。

2. 梅尔频率倒谱系数

梅尔频率倒谱系数(Mel-Frequnecy Cepstrum Coefficient)是组成梅尔频率倒谱的系数。在声音处理领域,梅尔频率倒谱(Mel-Frequency Cepstrum)是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。

MFCC被广泛应用于语音识别领域。MFCC的提取过程通常有以下过程:

  • 对音频信号进行预加重处理,从而降低部分高频能量。可以简单使用\(y[n] = x[n] - \alpha x[n-1]\)进行处理,其中\(0.9\leq \alpha \leq 1.0\)是预加重系数;
  • 对预加重处理后的信号进行分帧、加窗处理。一般采用汉明窗;
  • 对每一帧信号进行快速傅里叶变换,得到频谱;
  • 将每个帧获得的频谱通过梅尔滤波器(三角重叠窗口),得到梅尔刻度;
  • 在每个梅尔刻度上提取对数能量,用于校正人耳对于声强的非线性;
  • 对上面获得的结果进行逆离散傅里叶变换,变换到到倒频谱域;
  • 前面步骤一般得到12个倒谱系数,与帧能量叠加得13维的系数;
  • 通过相邻帧计算这13个特征的一阶差分及二阶差分,最终得到39个特征,这39个特征便是最终的MFCC特征;

补充:

  1. 假设在一个短时间尺度内,音频信号不发生改变,将信号以多个采样点集合到成一个单位,称为“帧”;
  2. 预强化的目的是为了消除发声过程中,声带和嘴唇造成的效应,来补偿语音信号受到发音系统所压抑的高频部分,并且能凸显高频的共振峰;
  3. 信号在时域上的特性不易区分,因此通常通过傅里叶变换变换为频域上的能量分布来观察,不同的能量分布代表不同语音的特性;

3. 功率正则化倒谱系数

功率正则化倒谱系数(power-normalized cepstral coefficients, PNCC)是于2016年提出的用于替代RASTA-PLP或MFCC的音频特征,能够加性噪声及混响环境下的语音识别能力。

PNCC的计算过程大部分模块都与PLP和MFCC相类似,新颖之处在于增加了短期和中期处理,通过计算一段时间内的功率来抑制背景中的激励信号。这种做法被称为不对称噪声抑制(asymmetric noise suppression, ANS),基于假设:在同一信道内,语音信号的功率变化比噪声的功率变化要更快。

参考链接:
[1]维基百科-梅尔频率倒谱系数
[2]语音信号的梅尔频率倒谱系数(MFCC)的原理讲解及python实现
[3] 声纹技术:从核心算法到工程实践

posted @ 2022-12-25 18:18  longRookie  阅读(347)  评论(0编辑  收藏  举报
最简单即最美
有了信仰,自己要坚持努力 2017.07.09 21:34