语音降噪论文“A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phoneme Classifier”的研读

最近认真的研读了这篇关于降噪的论文。它是一种利用混合模型降噪的方法，即既利用了生成模型（MoG高斯模型），也利用了判别模型（神经网络NN模型）。本文根据自己的理解对原理做了梳理。

论文是基于“Speech Enhancement Using a Mixture-Maximum Model”提出的MixMAX模型的。假设噪声是加性噪声，干净语音为x(t)，噪声为y(t)，则在时域带噪语音z(t)可以表示为z(t) = x(t) + y(t)。对z(t)做短时傅里叶变换(STFT)得到Z(k)，再取对数谱（log-spectral）可得到Z_k(k表示对数谱的第k维，即对数谱的第k个频段（frequency bin）。若做STFT的样本有L个，则对数谱的维数是 L/2 + 1)。相应的可得到X_k和Y_k。MixMAX模型是指加噪后语音的每个频段上的值Z_k是对应的X_k和Y_k中的大值，即 = MAX(X_k, Y_k)。

语音x由音素组成，设定一个音素可用一个高斯表示。假设音素有m个，则干净语音的密度函数f(x)可以表示成下式：

f_i(x)表示第i个音素的密度函数。由于x是用多维的对数谱表示的，且各维向量之间相互独立，所以f_i(x)可以表示成各维向量的密度函数f_i,k(x_k)的乘积。各维的密度函数表示如下式：

μ_i,k表示这一维上的均值，δ_i,k表示这一维上的方差。c_i表示这个音素所占的权重，权重的加权和要为1。

噪声y只用一个高斯表示。同语音一样，y也是用多维的对数谱表示的，y的密度函数可以表示如下：

同样g_k(y_k)表示如下：

对于y每一维上的密度函数，其概率分布函数G_k(y)为：

其中erf()为误差函数，表示如下：

同理可求得干净语音中每个音素的每一维上的概率分布函数，如下式：

对于带噪语音Z来说，当语音音素给定时（即i给定时）其对数谱的第k维分量Z_k的分布函数H_i,k(z)可以通过下式求得：

上式就是求I = i时的条件概率。由于X和Y相互独立，就变成了X和Y的第k维向量上的分布函数的乘积。对Z_k的分布函数H_i,k(z)求导，就得到了的密度函数h_i,k(z)，表示如下：

所以z的密度函数h(z)通过下式求得：

带噪语音Z已知，我们的目标是要根据带噪语音估计出干净语音X，即求出Z已知条件下的X的条件期望。基于MMSE估计，X的条件期望/估计表示如下：

上式中X的条件期望又转换成了每个音素条件期望的加权和。条件概率q(i | Z = z)可根据全概率公式得到，如下：

对于每个音素的条件期望，表示如下：。对于每个音素的对数谱的每一维的条件期望，表示如下：

其中：

定义，可以推得x的对数谱的每一维上的估计如下式：

可以把用基于谱减的替代，其中β表示消噪程度。ρ_k可以看成是干净语音的概率。所以

抵消掉正负项，可得：

上式就是求消噪后的语音的对数谱的每维向量的数学表达式。z_k可根据带噪语音求得，β要tuning，知道ρ_k后x_k的估计就可得到了。对得到的每维向量做反变换，可得到消噪后的时域的值。

上文已给出，其中p(I = i | Z = z)表示在Z已知下是每个音素可能的概率，或者说一帧带噪语音是每个音素的可能的概率，用p_i表示。p_i可以通过全概率公式求出，即。但对每种语言来说，总的音素的个数是已知的（比如英语中有39个音素），这样求每帧是某个音素的概率是一个典型的分类问题。神经网络（NN）处理分类问题是优于传统方法的，所以可以用NN来训练一个模型，处理时用这个模型来计算每帧属于各个音素的概率，即算出p_i，再和ρ_i,k做乘累加（ρ_i,k用基于MOG模型的方法求出），就可得到ρ_k了（）。有了ρ_k，x_k的估计就可求出了。可以看出NN模型的作用是替换计算p_i的传统方法，使计算p_i更准确。