论文翻译:2020_NSNet:Weighted speech distortion losses for neural-network-based real-time speech enhancement
论文代码:https://github.com/GuillaumeVW/NSNet
引用:Xia Y, Braun S, Reddy C K A, et al. Weighted speech distortion losses for neural-network-based real-time speech enhancement[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 871-875.
摘要
本文研究了训练RNN(递归神经网络)的几个方面,影响客观和主观的增强语音质量的实时单通道语音增强。具体地说,我们重点研究了一种基于单帧输入、单帧输出的RNN,这是一种被大多数经典信号处理方法所采用的框架。我们提出了两个新颖的均方误差 损失函数,能够分别控制语音失真和降噪的重要性。提出的损失函数通过PESQ和STOI进行评估,并与其他方法进行比较。此外,我们还研究了特征归一化和不同batch序列长度对增强语音客观质量的影响。最后,我们对所提出的方法和一种先进的实时RNN方法进行了主观评价。
关键词:实时语音增强,递归神经网络,损失函数,语音失真,平均意见评分
1 引言
语音增强(Speech Enhance,SE)算法旨在改善被加性噪声降级的语音质量和可理解性[1],以改善人类或机器对语音的理解,典型的语音增强应用包括助听器、自动语音识别和噪声环境中的音视频通信。大多数SE方法将频谱抑制增益或过滤应用于时频域中的有噪语音信号[2]。在最近使用深度神经网络(DNNs)的有监督学习方法中,DNN通常被设置为 从带噪语音的一组或多组特征中估计这个时变增益函数[3]。
在线处理能力是SE算法的一个吸引人的特征,并且对于实时通信应用是必需的。虽然大多数经典的SE方法必须适应它们的方法[4,5,6,7]来实现因果关系,但文献[3,8,9]中的许多基于DNN的方法并没有强制执行这一约束。几种基于DNN的方法使用大量的look-ahead[8,9]报告了高质量的增强,但是它们在降低look-ahead的性能没有得到很好的研究。然而,与经典方法相比,基于DNN的系统具有精确抑制瞬态噪声的能力。在这项工作中,我们研究了基于递归神经网络(RNN)的实时语音增强。最近涉及RNNs的工作显示出令人振奋的结果[10],即使在非常低信噪比(SNR)的情况下也是如此[11,12]。
设计用于音频/视频通信的SE算法的关键挑战是在抑制噪声的同时最大限度地保持感知(主观)语音质量。在经典文献中,优化这样一个全局目标可以通过求解一个受约束的目标函数来完成[13]。或者,可以优化更简单的目标,如(对数)均方误差(MSE)[6,14],并采用后处理模块,如残余噪声去除[7]和增益限制[15]。相比之下,深度学习框架的一个主要好处是相对容易纳入复杂的学习目标,人们认为这将推动增强的语音朝着更好的质量和清晰度发展。沿着这条思路的方法包括从特征中学习多个目标[16,17,18],联合优化最终目标及其子目标(例如,语音存在概率)[10,12],以及直接针对语音质量或清晰度的客观度量进行优化[19,20]。后者似乎是一种改进客观质量的有前途的方法,尽管由于每个客观测量的频带限制,这两个模型都必须结合标准的MSE。[21]据报道,简单的感知加权宽带MSE本身并不能改善客观语音质量或清晰度,这表明MSE仍然是宽带语音增强的可靠学习目标。
本文提出了一种基于DNN的实时在线语音增强系统。首先,我们将讨论使用RNN促进模型学习的 特征和归一化技术。然后,我们描述了一种从单个噪声帧产生增益的 紧凑形RNN。接下来,我们介绍了两个简单的基于均方误差的损失函数,分别控制语音失真和去噪。在评估过程中,我们深入考察了错误加权对主客观语音质量和清晰度的影响。此外,我们还讨论了不同的特征归一化技术和训练策略对客观度量的影响。
2 问题表述
我们假设要在短时傅立叶变换(STFT)域中描述的麦克风信号为:
其中
在实时处理中,
其中,
在接下来的几节中,我们将回顾最先进的方法,然后讨论我们对
3 最先进的在线降噪技术
经典的在线SE方法通常通过优化一些统计意义上的目标函数来寻找最优增益函数,这类方法中最有效的方法之一是假设语音和噪声的STFT是不相关的复高斯分布,并通过最小化clean和增强的STFTM[6]或log-STFTM[14]之间的均方误差来求解
在最近的基于DNN的方法中,通常放弃了关于noisy和clean的STFTM分布的统计假设,而最小均方误差(MMSE)目标变成了DNN通过随机梯度下降来优化的损失函数。最流行的损失函数之一是介于chean和增强STFTM之间的MSE
其中
4 提出的方法
4.1 特征表示
选择合适的特征和归一化是成功训练DNN的关键。我们考虑了幅度谱和对数功率谱(LPS)的两个基本特征,并分别应用全局、频率依赖(Frequency Dependent,FD)和频率独立(Frequency Independent,FI)归一化来训练我们的网络。
在我们所有的系统中使用的STFT是基于32 ms的汉明窗口(帧之间有75%的重叠)和512点离散傅里叶变换计算的。LPS采用自然对数,地板在-120 dB,即:
我们探索了三种类型的归一化,分别与上述幅度谱或LPS单独结合。
1、首先,我们考虑全局归一化,在这种情况下,每个频率bin通过均值和从训练集累积的标准差进行标准化
2、其次,我们考虑在线(online) FD均值和方差标准化,在这种情况下,运行均值和方差被一个衰减指数平滑
其中
3、最后,我们还进行了FI在线归一化,在这种情况下,平均每个频率的均值和方差并应用于所有频率。该方法保持了频率bin之间的相对动态,但可能会给学习机带来更大的学习挑战。
在我们所有的实验中,除了特征实验,我们使用FD在线归一化,
4.2 学习机制
我们的学习机器以门控循环单元(GRU)[23]为基础,接收一帧带噪语音谱,输出一帧幅度增益函数。考虑到GRU的计算效率和实时SE任务的优越性能,它比长短期内存(LSTM)[24]更受青睐。我们将三个GRU层堆叠起来,然后是一个具有sigmoid激活的全连接(FC)输出层,以预测增益函数
值得一提的是,我们没有像在其他相关工作中经常做的那样应用卷积层[11,25],因为在选择频率步幅和滤波器数量时涉及到相对任意的过程。先前的研究[26]已经表明一个naive卷积层应用于过去和现在的输入噪声帧并没有改善增强语音的客观质量。相反,我们通过训练不同长度、特征和损失函数的序列来探索网络的时间建模能力。
4.3 损失函数
我们使用三个损失函数来训练我们的系统。首先,我们使用公式(4)中纯净幅度谱和增强幅度谱之间的MSE。为了更好地控制损失,我们建议将error分为语音失真和降噪项
其中下标表示语音处于活动状态的框架子集。在我们的实验中,我们采用了一个简单的基于能量的帧级语音活动检测器,它对纯净语音的功率谱进行操作。短时语音能量在300hz和5000 Hz之间积累,并通过移动平均滤波器平滑3帧。最后,决定在低于整个语音峰值能量30分贝的阈值上发声一帧。
当估计增益接近all-pass时,语音失真误差最小,噪声误差最大,反之亦然。因此,我们可以用一个固定的加权损失来控制语音失真对降噪的相对重要性
式中
在经典的语音增强文献中,抑制规则通常是根据信噪比来调整的[15,13]。具体来说,抑制应限制在高信噪比,以避免伪影,并在低信噪比是积极。基于这一原则,我们的第二个信噪比加权损失在公式(12)中使用每个语音的全局信噪比进行调整
其中,
图1 选择信噪比加权的语音失真加权。水平线表示
所提出的方法如图2所示的流程图所示。在训练过程中,计算加权损失既需要纯净语音,也需要noisy。训练后的模型每次处理一帧带噪语音幅度谱,利用带噪语音的相位重构增强后的语音波形。
图2 提出的系统流程图
5 实验结果与讨论
5.1 语料库与实验设置
我们使用MS-SNSD数据集[22]和工具包使用从公开可用的语音和噪声语料库合成的数据集来训练和评估所有基于DNN的系统。14种不同的噪声类型被选择用于训练,而来自9种不包括在训练集中的噪声类型的样本被用于评估。我们的测试集包括挑战性和高度非平稳的噪音类型,如咀嚼、多人交谈、键盘打字等。所有音频片段都被重新采样到16 kHz。训练集包括84小时的纯净语音和噪声,而18小时(5500个片段)的有噪语音构成评估集。所有语音片段在每个话语的基础上被电平归一化,而每个噪声片段被缩放以具有来自{40、30、20、10、0}dB的五个全局SNR中的一个。在下面描述的所有基于DNN的系统的训练过程中,我们分别随机选择纯净语音和噪声的语音,然后将它们混合来创建带噪语音。
我们基于几个客观的语音质量和清晰度指标和主观测试,对所提出的方法进行了三个基线的比较研究。具体地说,我们包括语音质量感知评估(PESQ)[28]、短时客观清晰度(STOI)[29]、倒谱距离(CD)和尺度不变信噪比(SI-SDR)[30],用于在时间域、频谱域和倒谱域对增强语音进行客观评估。我们使用[22]中提出的基于网络的主观框架进行了主观听力测试。每个语音都由20位众包听众以1(非常差的语音质量)到5(极好的语音质量)之间的离散评级进行评级。在向这些听众展示测试剪辑之前,要确保培训和资格认证。所有20个打分的平均值是该语音的平均意见分数(MOS)。我们还删除了在整个MOS测试中选择相同评级的明显垃圾邮件发送者。我们的主观测试与其他客观评估相辅相成,从而为评估所研究的降噪算法提供了一个平衡的基准。
我们将我们提出的方法与三种基线方法进行了比较。我们使用了经典的增强器,它是对[31]中描述的MMSE对数谱振幅(LSA)估计器[14]的略微优化的实现。基于DNN的基线包括改进的RNNoise(RNNoiseI)[22]和RNN(RNNoise257),该RNN复制RNNoise[10]的网络体系结构,但是在257点频谱上操作,在(4)上进行训练,并且不具有最初提出的后处理组件。RNNoise257实现了一个具有与所提出的方法相当数量的参数的系统。
在下一节中,我们讨论了不同序列长度上的特征归一化和训练对增强语音的客观质量的影响。然后,我们探讨了所提出的固定加权损失函数和信噪比加权损失函数的最优加权。最后,我们将我们的系统生成的增强语音的主客观质量与几种方法进行了比较。
5.2 结果和讨论
我们想要评估用长序列或短序列训练如何影响RNN中的时间建模。虽然长序列有望帮助处理长期噪声模式,但它也可能潜在地降低只是短期静止的语音。表1总结了序列长度对客观语音质量的影响。对于每个设置,我们调整小批量中的序列数量,以便一批始终包含一分钟的嘈杂语音。我们观察到,随着每个数据段增加到5秒,性能有了显著的改善,超过5秒后,性能改善开始减弱。由于篇幅限制,我们没有给出特征测试的结果,但总的来说,幅度谱和LPS特征的所有归一化变体之间几乎没有区别,而没有归一化会导致退化。一般来说,我们推荐FD在线归一化,因为它对不同的信号电平具有不变性。我们还建议在训练期间使用每个不少于5秒的片段。
表1 一分钟小批量中序列长度的影响
语音失真加权的效果如图3所示,其中改变
图3 固定加权和信噪比加权对客观语音质量和清晰度测量的影响。
黑色虚线垂直线表示每个度量的最佳系数。
注意,STOI和CD的最佳点在
在实验中,我们注意到,即使我们的系统在MSE(例如,表1中的第4行)上训练的系统可以达到与那些基于拟议的加权损失(12)训练的系统类似的客观度量,但基于加权损失训练的系统的相应主观质量要好得多。基于我们的损失函数训练的系统,特别是在小的情况下,最显著的改进是估计的增益函数比基于MSE训练的系统具有更强的频率选择性,有更高的噪声抑制,特别是在高信噪比的情况下。为了证明这一点,我们在表2中给出了主观听力测试的结果。我们选择的所有系统不仅显著优于[22]中提出的基于MSE的改进的RNNoise(RNNoiseI),而且令我们惊讶的是,听力测试对象更喜欢相当低的语音失真权重设置。所有客观指标以及作者的主观偏好约
表2 主观MOS从5500个剪辑和20个评级的剪辑
最后,我们报告了从每个基线方法、带噪参考和甲维纳滤波作为上界的客观评估,如表3所示。从我们的方法中选择的系统使用固定的语音失真加权(α=0.35时)进行训练,我们认为该方法在语音失真和去噪之间取得了很好的平衡。虽然这种设置可能不是人类监听器最喜欢的,但是可以很容易地调优到不同的应用程序。尽管如此,重要的是要证明它在所有客观度量上都优于所有测试的经典或基于DNN的方法。
表3 比较客观的度量与基线在线SE系统。有关每个设置的详细信息,请参阅文本
6 总结
本文提出并评估了一种基于紧凑递归神经网络的实时语音增强方法,该网络采用一种简单的基于MSE的语音失真加权损失函数进行训练,并展示了各种特征归一化技术和序列长度对增强语音客观质量的影响。我们还演示了如何利用损失函数中的固定加权系数和信噪比加权系数来控制语音失真量,客观和主观测试都表明,我们的方法比其他好胜在线方法具有更好的性能。在未来,我们将探索时变的语音失真权重及其对主客观语音质量的影响。
7 参考文献
[1] P. C. Loizou, Speech enhancement: theory and practice, CRC press, 2013.
[2] J. Benesty, S. Makino, and J. Chen, Eds., Speech Enhancement, Springer, 2005.
[3] Y.Wang, A. Narayanan, and D.Wang, On training targets for supervised speech separation, IEEE/ACM Trans. on audio, speech, and language processing, vol. 22, no. 12, pp. 1849 1858, 2014.
[4] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE signal processing letters, vol. 9, no. 1, pp. 12 15, 2002.
[5] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal processing, vol. 81, no. 11, pp. 2403 2418, 2001.
[6] Y. Ephraim and D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator, IEEE Trans. on acoustics, speech, and signal processing, vol. 32, no. 6, pp. 1109 1121, 1984.
[7] S. Boll, Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. on acoustics, speech, and signal processing, vol. 27, no. 2, pp. 113 120, 1979.
[8] A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. T. Freeman, and M. Rubinstein, Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation, ACM Trans. on Graphics (TOG), vol. 37, no. 4, pp. 112, 2018.
[9] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, in ISCA INTERSPEECH 2017, 2017, pp. 3642 3646.
[10] J.-M. Valin, A hybrid DSP/deep learning approach to realtime full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP), 2018, pp. 1 5.
[11] K. Tan and D. Wang, A convolutional recurrent neural network for real-time speech enhancement., in ISCA INTERSPEECH, 2018, pp. 3229 3233.
[12] Y. Xia and R. Stern, A priori SNR estimation based on a recurrent neural network for robust speech enhancement, in ISCA INTERSPEECH, 2018, pp. 3274 3278.
[13] S. Braun, K. Kowalczyk, and E. Habets, Residual noise control using a parametric multichannel wiener filter, in IEEE ICASSP, 2015, pp. 1 5.
[14] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. on acoustics, speech, and signal processing, vol. 33, no. 2, pp. 443 445, 1985.
[15] T. Esch and P. Vary, Efficient musical noise suppression for speech enhancement system, in IEEE ICASSP, 2009, pp. 1 5.
[16] L. Sun, J. Du, L.-R. Dai, and C.-H. Lee, Multiple-target deep learning for LSTM-RNN based speech enhancement, in IEEE Hands-free Speech Communications and Microphone Arrays (HSCMA), 2017, pp. 136 140.
[17] Y. Xu, J. Du, Z. Huang, L.-R. Dai, and C.-H. Lee, Multiobjective learning and mask-based post-processing for deep neural network based speech enhancement, in ISCA INTERSPEECH 2015, pp. 1508 1512.
[18] F. G. Germain, Q. Chen, and V. Koltun, Speech Denoising with Deep Feature Losses, in Proc. Interspeech 2019, 2019, pp. 2723 2727.
[19] J. M. Mart ın-Do nas, A. M. Gomez, J. A. Gonzalez, and A. M. Peinado, A deep learning loss function based on the perceptual evaluation of the speech quality, IEEE Signal processing letters, vol. 25, no. 11, pp. 1680 1684, 2018.
[20] Y. Zhao, B. Xu, R. Giri, and T. Zhang, Perceptually guided speech enhancement using deep neural networks, in IEEE ICASSP, 2018, pp. 5074 5078.
[21] A. Kumar and D. Florencio, Speech enhancement in multiplenoise conditions using deep neural networks, in ISCA INTERSPEECH 2016, 2016, pp. 3738 3742.
[22] C. K. Reddy, E. Beyrami, J. Pool, R. Cutler, S. Srinivasan, and J. Gehrke, A Scalable Noisy Speech Dataset and Online Subjective Test Framework, in ISCA INTERSPEECH 2019, 2019, pp. 1816 1820.
[23] K. Cho, B. van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, Learning phrase representations using RNN encoder decoder for statistical machine translation, in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, pp. 1724 1734.
[24] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural computation, vol. 9, no. 8, pp. 1735 1780, 1997.
[25] H. Zhao, S. Zarar, I. Tashev, and C.-H. Lee, Convolutionalrecurrent neural networks for speech enhancement, in IEEE ICASSP, 2018, pp. 2401 2405.
[26] D. Liu, P. Smaragdis, and M. Kim, Experiments on deep learning for speech denoising, in ISCA INTERSPEECH, 2014.
[27] Z. Xu, S. Elshamy, Z. Zhao, and T. Fingscheidt, Components loss for neural networks in mask-based speech enhancement, arXiv preprint arXiv:1908.05087, 2019.
[28] A. W. Rix, J. G. Beerends, M. P. Hollier, and A. P. Hekstra, Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs, in 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 01CH37221), 2001, vol. 2, pp. 749 752.
[29] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, A short-time objective intelligibility measure for time-frequency weighted noisy speech, in IEEE International Conference on Acoustics, Speech and Signal Processing, 2010, pp. 4214 4217.
[30] J. Le Roux, S.Wisdom, H. Erdogan, and J. R. Hershey, SDR half-baked or well done?, in IEEE ICASSP, 2019, pp. 626 630.
[31] I. J. Tashev, Sound capture and processing: practical approaches, John Wiley & Sons, 2009.
作者:凌逆战
欢迎任何形式的转载,但请务必注明出处。
限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教。
本文章不做任何商业用途,仅作为自学所用,文章后面会有参考链接,我可能会复制原作者的话,如果介意,我会修改或者删除。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?