语音增强（降噪）之一——谱减法

博主最近转战语音增强研究，刚学习了最基础也是最成熟的方法——谱减法，最早是boll提出的《Suppression of acousic noise in speech using spectral subtraction》。http://blog.csdn.net/leixiaohua1020/article/details/47276353 链接中的这边博客给我帮助很大，比较详细，matlab源码也可以找到，对于刚入门音频处理的小白来讲，先从这边文献《Enhencement OF Speech Corrupted by Aconstic Noise》开始是不错的选择，要讲的源码也是对应这篇文献的。

一、原理

顾名思义，谱减法，就是用带噪信号的频谱减去噪声信号的频谱。谱减法基于一个简单的假设：假设语音中的噪声只有加性噪声，只要将带噪语音谱减去噪声谱，就可以得到纯净语音，这么做的前提是噪声信号是平稳的或者缓慢变化的。提出这个假设就是基于短时谱（25ms），就是频谱在短时间内是平稳不变的。

早期文献中的方法较为简单粗暴，公式如下：

Ps(w)是输入的带噪语音的频谱，Pn(w)是估计出的噪音的频谱，两者相减得到D(w)差值频谱。由于相减后可能会出现负值，所以就简单粗暴地加上一个判断条件，将负值全部置为0，这样得到的结果作为最终输出去噪语音的频谱。

那噪音是怎么估计出来的呢？文献中一般都假设输入的一段语音中前n帧作为silence时间，也就是说这段时间没有语音输入，只有噪音，可以称之为底噪，将这5帧中的噪音强度取平均值，作为估计出来的噪音。

但是这样做的方法有一个缺点就是由于我们估计噪音的时候取得平均值，那么有的地方噪音强度大于平均值的时候，相减后会有残留的噪音存在。在噪音波形谱上表现为一个一个的小尖峰，我们将这种残存的噪声称之为音乐噪声(music noise)。更为专业点的解释如下：

为了改善这种情况，许多人都对传统的谱减法进行了改进，今天主要说的是 Berouti的改进方法，上个世纪的论文了《Enhencement OF Speech Corrupted by Aconstic Noise》。该方法将上面的公式进行了如下修改：

可见多了两个参数alpha 和 beta。我们将alpha称之为相减因子，beta称之为频谱下限阈值参数。alpha>1，这样可以保证相比于之前的方法能够有更强的去噪效果，能够去除大部分的噪声，这样残余的噪声就会少很多。但是同样的相减后差值如果为负值，这个负值也就会更大。老方法中是将负值直接设为0，这样残余噪音的峰值和0之间的差值还是较为显著，所以Berouti就想了一个办法，就是设置一个语音的下限值beta* Pn(w)。将相减后的幅值小于此下限值得统一设置为这个固定值，这个下限值其实也是宽带的噪音，只不过设置下限值的好处是残余峰值相比之下没有那么显著，从而减小了“音乐噪声”的影响。可以通过调整beta的值来调整这个宽带的噪声的强度。

好了基本的原理就是这个了，接下来就是参数的设置，文献中根据输入信号的SNR做了大量实现来确定alpha和beta的值，最终给出的alpha随每一个音频帧的SNR的变换曲线是这样的：