常见的音频特征

1. 频谱、倒谱、时频谱和功率谱
2. 梅尔频率倒谱系数
3. 功率正则化倒谱系数

1. 频谱、倒谱、时频谱和功率谱

频谱：
将一段时域信号通过离散傅里叶变换后，将频率作为横轴，幅度作为纵轴。

相位频谱：
将一段时域信号通过离散傅里叶变换后，将频率作为横轴，相位作为纵轴。

倒谱：
将频谱的对数作为信号，进行傅里叶变换后得到的新的频谱，此时其横轴被称为倒频率（quefrency）。倒谱的函数在于，能够将时域的卷积运算变成倒谱域的加法运算。

时频谱：
时频谱是指信号经过短时傅里叶变换后，得到的以时间为横轴、频率为纵轴、颜色或灰度表示幅度的图像。

功率谱（power spectrum）
有时我们将频谱或时频谱中的幅值替换为幅值的平方，并称之为功率谱（power spectrum）。

2. 梅尔频率倒谱系数

梅尔频率倒谱系数（Mel-Frequnecy Cepstrum Coefficient）是组成梅尔频率倒谱的系数。在声音处理领域，梅尔频率倒谱（Mel-Frequency Cepstrum）是基于声音频率的非线性梅尔刻度（mel scale）的对数能量频谱的线性变换。

MFCC被广泛应用于语音识别领域。MFCC的提取过程通常有以下过程：

对音频信号进行预加重处理，从而降低部分高频能量。可以简单使用\(y[n] = x[n] - \alpha x[n-1]\)进行处理，其中\(0.9\leq \alpha \leq 1.0\)是预加重系数；
对预加重处理后的信号进行分帧、加窗处理。一般采用汉明窗；
对每一帧信号进行快速傅里叶变换，得到频谱；
将每个帧获得的频谱通过梅尔滤波器（三角重叠窗口），得到梅尔刻度；
在每个梅尔刻度上提取对数能量，用于校正人耳对于声强的非线性；
对上面获得的结果进行逆离散傅里叶变换，变换到到倒频谱域；
前面步骤一般得到12个倒谱系数，与帧能量叠加得13维的系数；
通过相邻帧计算这13个特征的一阶差分及二阶差分，最终得到39个特征，这39个特征便是最终的MFCC特征；

补充：

假设在一个短时间尺度内，音频信号不发生改变，将信号以多个采样点集合到成一个单位，称为“帧”；

预强化的目的是为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分，并且能凸显高频的共振峰；

信号在时域上的特性不易区分，因此通常通过傅里叶变换变换为频域上的能量分布来观察，不同的能量分布代表不同语音的特性；

3. 功率正则化倒谱系数

功率正则化倒谱系数（power-normalized cepstral coefficients, PNCC）是于2016年提出的用于替代RASTA-PLP或MFCC的音频特征，能够加性噪声及混响环境下的语音识别能力。

PNCC的计算过程大部分模块都与PLP和MFCC相类似，新颖之处在于增加了短期和中期处理，通过计算一段时间内的功率来抑制背景中的激励信号。这种做法被称为不对称噪声抑制（asymmetric noise suppression, ANS），基于假设：在同一信道内，语音信号的功率变化比噪声的功率变化要更快。

参考链接：
[1]维基百科-梅尔频率倒谱系数
[2]语音信号的梅尔频率倒谱系数（MFCC）的原理讲解及python实现
[3] 声纹技术：从核心算法到工程实践

posted @ 2022-12-25 18:18 longRookie 阅读(347) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

O(∩_∩)O

常见的音频特征

1. 频谱、倒谱、时频谱和功率谱

2. 梅尔频率倒谱系数

3. 功率正则化倒谱系数

公告