论文翻译:2022_Time-Frequency Attention for Monaural Speech Enhancement
论文地址:单耳语音增强的时频注意
引用格式:Zhang Q, Song Q, Ni Z, et al. Time-Frequency Attention for Monaural Speech Enhancement[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022: 7852-7856.
摘要
大多数语音增强研究通常没有明确考虑语音在时频(t -f)表示中的能量分布,这对于准确预测掩模或频谱具有重要意义。在本文中,我们提出了一个简单而有效的T-F注意(TFA)模块,该模块产生了一个二维attention map,为T-F表示的频谱分量提供了差异化的权重。为了验证我们提出的TFA模块的有效性,我们使用残差时间卷积网络(ResTCN)作为骨干网络,并在两个常用的训练目标上进行了广泛的实验。我们的实验表明,应用我们的TFA模块在五个客观评价指标方面显著提高性能,而参数(2.72KB)开销可以忽略不计。评估结果表明,提出的带TFA模块的ResTCN (ResTCN+TFA)始终在很大程度上优于其他基线。
索引术语:语音增强,时频注意,能量分布,时间卷积网络(temporal convolutional network)
1 引用
语音增强是指在存在背景噪声的情况下对语音信号进行增强。它是许多语音处理应用的基本组成部分,如自动语音识别、说话人识别、助听器和电话会议。基于统计模型的语音增强[1-3]已经被广泛研究了几十年,该方法对平稳噪声有很好的增强效果,但对非平稳噪声[4]的增强效果不佳。
基于监督深度学习的语音增强技术已经取得了显著的进展。根据对输入信号的处理方式,现有方法可以分为两类。时域方法直接对语音波形进行语音增强,其中DNN被优化以学习从带噪语音波形到纯净语音波形的映射[5,6]。时频域(T-F)域方法通常训练DNN预测纯净语音或T-F掩码的频谱表示。目前最流行的T-F掩模包括理想比例掩模(IRM)[7]、相敏掩模(PSM)[8]和复数IRM (cIRM)[9]。在本研究中,我们采用IRM和PSM进行语音增强。
在早期的研究中,多层感知器(MLPs)是应用最广泛的架构,但它们在捕获长期依赖方面存在局限性。为了克服这一局限性,Chen等人[10]采用四层长短期记忆(LSTM)的递归神经网络(RNN)进行语音增强,明显优于MLPs。然而,LSTM网络的训练过程缓慢而复杂,并且需要大量的参数,这严重限制了它的适用性。最近,利用扩张卷积和剩余跳跃连接的剩余时间卷积网络(ResTCNs)[11]在建模长期依赖关系方面表现出了令人印象深刻的性能,并在语音增强方面取得了相当大的成功[12-14]。近年来,基于自注意的Transformer[15]模型已成功地应用于语音增强和许多其他与语音处理相关的任务,因为它们具有捕获远程依赖关系的能力。
现有的模型主要关注如何有效地对长程依赖进行建模,而一般忽略了T-F域的能量分布特征,而T-F表示对语音增强同样重要。注意力机制[16 18]已被充分研究,以了解什么对学习任务是重要的。受注意力的启发,我们提出了一种新的结构单元,称为T-F注意力(TFA)模块,用于模拟语音的能量分布。具体而言,TFA模块由两个平行的注意分支组成,即时间维度注意力(TA)和频率维度注意力(FA)[19],它们产生两个1-D attention map,分别指导模型关注何处(哪个时间帧)和什么(哪个频率通道)。结合TA和FA模块生成二维注意力图,使模型能够捕捉T-F域的语音分布。为了验证这一想法,我们使用最新的ResTCN架构作为骨干网络,并采用两个代表性的训练目标(将在第2节中讨论)进行广泛的实验。
本文的其余部分组织如下。第二节介绍了T-F域语音增强技术。在第3节中,我们描述了拟议的网络。第4节介绍了实验装置和评估结果。第5部分对本文进行了总结。
2 问题公式化
在短时傅里叶变换(STFT)域中,带噪语音可以被建模为纯净语音和加性噪声的组合
$$公式1:X[l,k]=S[l,k]+D[l,k]$$
其中$X[l,k]$, $S[l, k]$和$D[l, k]$分别表示带噪语音、纯净语音和噪声的STFT系数。对于有监督的语音增强,通常训练DNN来预测预先设计的掩膜。然后应用该结果重建纯净语音。为了验证我们提出的TFA模块的有效性,我们采用两个广泛使用的掩膜进行广泛的增强实验。详情如下:
理想比值掩模( ideal ratio mask,IRM)[7]的定义为:
$$公式2:\operatorname{IRM}[l, k]=\sqrt{\frac{|S[l, k]|^{2}}{|S[l, k]|^{2}+|D[l, k]|^{2}}}$$
式中$|S[l, k]|$和$|D[l, k]|$分别为纯净语音和噪声的频谱。
相敏掩模(phase-sensitive mask,PSM)[8]是根据纯净语音和带噪语音的STFT幅值定义的。引入一个相位误差项来补偿对带噪声语音相位的利用
$$公式3:\operatorname{PSM}[l, k]=\frac{|S[l, k]|}{|X[l, k]|} \cos \left[\theta_{S[l, k]-X[l, k]}\right]$$
式中$\theta_{S[l,k]-X[l,k]}$表示纯净语音与带噪语音之间的相位差。PSM被截断到0到1之间,以拟合sigmoid激活函数的输出范围。
3 TF-Attention的语音增强
3.1 网络结构
图1(a)展示了ResTCN骨干网[12]的结构,它以带噪语音$|X|]\in R^{L*K}$的STFT幅度谱作为输入。输出层为全连接层,具有sigmoidal激活函数,输出掩码 (IRM或PSM)。图1(b)显示了我们如何将TFA模块插入到ResTCN块中。ResTCN块(如图1 (a)的黑色虚线框所示)包含三个1-D因果扩张卷积单元。每个卷积单元中的参数表示为kernel size、filter nums和dilation rate。循环dilation rate为块索引$b=\{1,2,3,...B\}$增大:$d=2^{(b-1mod(log_2(D)+1))}$,其中mod为取模运算,D = 16为最大dilation rate。每个卷积单元都采用预激活设计,其中输入通过frame-wise alization (LN)和ReLU激活函数进行预激活。
图1所示 (a) ResTCN骨干网和(b)我们提出的带有TFA模块的ResTCN块
3.2 TF注意力模块
图2所示 我们提出的TFA模块示意图,其中TA和FA模块分别显示在黑色和蓝色的点框中
AvgPool和Conv1D分别表示平均池化和1-D卷积操作。$\otimes $和$\odot $分别表示矩阵乘法和元素点乘
在图2中,我们说明了TFA模块。我们将变换后的T-F表示$Y\in R^{L*d_{model}}$作为L帧和$d_{model}$频率通道的输入。TFA利用两个分支并行生成1- d frequency-dimension attention map $F_A\in R^{1*d_{model}}$和1- d time-frame attention map $T_A\in R^{L*1}$,再结合矩阵乘法得到最终的2-D T-F attention map $TF_A\in R^{L*d_{model}}$。改进后的输出写为
$$公式4:\tilde{\mathbf{Y}}=\mathbf{Y} \odot \mathbf{T F}_{A}$$
其中$\odot $表示逐元素乘积。下面给出了提议的 TFA 的详细描述。
语音在时间和频率维度上的能量分布是生成准确attention map的关键。每个Attention分支分两步生成attention map:全局信息聚合和Attention生成。具体来说,FA模块在给定的输入Y上沿时间维度进行全局平均池化,并生成frequency-wise统计$Z_F\in R^{1*d_{model}}$,公式为:
$$公式5:\mathbf{Z}_{\mathbf{F}}(k)=\frac{1}{L} \sum_{l=1}^{L} \mathbf{Y}(l, k)$$
其中$Z^F(k)$是$Z_F$的第k个元素,同样的,TA模块沿着输入X的频率维度进行全局平均池化(就是求平均),并生成一个基于time-frame-wise的统计$Z_T\in R^{L*1}$。$Z_T$的第$l$个元素可以写成:
$$公式6:\mathbf{Z}_{\mathbf{T}}(l)=\frac{1}{d_{\text {model }}} \sum_{k=1}^{d_{\text {model }}} \mathbf{Y}(l, k)$$
两个统计$Z_T$和$Z_F$分别可以看作是语音能量在时间维度和频率维度上的分布。为了充分利用这两种描述符产生准确的Attention权值,我们堆叠两个一维卷积层$k_{tfa}=17$作为非线性变换函数。FA模块的Attention具体计算为
$$公式7:\mathbf{F}_{\mathbf{A}}=\sigma\left(f_{2}^{F A}\left(\delta\left(f_{1}^{F A}\left(\mathbf{Z}_{\mathbf{F}}\right)\right)\right)\right)$$
式中$f$为1-D卷积运算,$\delta$和$ \sigma $分别为ReLU和sigmoid激活函数。在TA模块中采用相同的计算过程生成Attention map:
$$公式8:\mathbf{T}_{\mathbf{A}}=\sigma\left(f_{2}^{T A}\left(\delta\left(f_{1}^{T A}\left(\mathbf{Z}_{\mathbf{T}}\right)\right)\right)\right)$$
然后,将从两个注意分支获得的Attention map与张量乘法相结合,产生最终的2-D Attention map TFA
$$公式9:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}} \otimes \mathbf{F}_{\mathbf{A}}$$
其中$\otimes $表示张量乘法运算。最终二维 Attention map TFA的计算公式为:
$$公式10:\mathbf{T F}_{\mathbf{A}}=\mathbf{T}_{\mathbf{A}}(l)*\mathbf{F}_{\mathbf{A}}(l)$$
其中$T_A(l)$和$F_A(k)$分别表示$T_A$的第$l$个元素,和$F_A$的第k个元素。
4 实验
4.1 数据集和特征提取
我们使用Librispeech[20]语料库中的train-clean-100作为训练集中的纯净语音,包括251个说话人的28539个语音。训练集中使用的噪声来自以下数据集:QUT-NOISE数据集[21],非语音数据集[22],环境背景噪声数据集[23,24],RSG-10数据集[25](语音babble, F16,和工厂焊接除外进行测试),Urban Sound数据集[26](街头音乐记录no.[26])。26 270被排除用于测试)、MUSAN语料库[27]的噪声集和彩色噪声(α值从2到2,以0.25为增量)。总共有6 909个噪音。对于验证集,我们随机选择1 000条纯净的语音和噪音录音(不替换),并将其从前述的纯净语音和噪音集中移除。每个纯净语音与一个噪声记录的随机部分混合,随机信噪比在-10 dB到20 dB之间,以1dB的增量产生1 000个噪声语音作为验证集。对于测试集,我们使用从RSG-10数据集[25]和Urban Sound数据集[26]中排除的四种真实世界的噪音记录(嘈杂声、F16、工厂焊接和街头音乐)。从Librispeech语料库[20]的test-clean-100中随机选择10条纯净的语音录音(没有替换),对每一条录音进行以下信噪比级别的混合:{-5 dB, 0 dB, 5 dB, 10 dB, 15 dB}。这将生成一个包含200段带噪声语音录音的测试集。所有纯净的语音和噪声录音都是单通道的,采样频率为16khz。
采用A square-root-Hann(平方根-Hann)窗函数进行分析和合成,帧长为32 ms,帧移为16 ms。带噪语音的257频点作为输入,该幅谱包含直流频率分量和奈奎斯特频率分量。
4.2 实验步骤
使用ResTCN模型作为基准骨干来验证我们的TFA模块的有效性。此外,我们还采用了两个最新的模型作为基线,即具有自我注意的ResTCN (ResTCN+SA)[28]和多头自我注意网络(MHANet)[29]。ResTCN基线使用以下参数,如[12],k = 3, $d_{model}$= 256, $d_f$ = 64, B = 40。ResTCN+SA[28]采用多头自我注意模块产生动态表示,然后采用ResTCN模型(采用B = 40个堆叠基线的ResTCN块构建ResTCN模型进行公平比较)进行非线性映射。MHANet模型[29]使用5层堆叠的Transformer编码器[15]进行语音增强,参数设置如[29]。为了验证TFA模块中FA和TA成分的有效性,我们进行了消融研究,其中使用FA和TA的ResTCN(称为ResTCN+FA和ResTCN+TA)被评估。
训练方法:每个训练迭代使用10个mini batch的带噪语音。带噪语音信号的创建方法如下:为mini batch选择的每个纯净语音与随机选择的噪声的随机部分混合,信噪比随机选择(-10 dB到20 dB,以1 dB的增量)。以目标掩模与估计掩模之间的均方误差(MSE)为目标函数。对于ResTCN、ResTCN+SA和提出的模型,使用默认超参数[30]和学习率0.001的Adam优化器进行梯度下降优化。由于MHANet难以训练[29,31],我们采用[29]中的训练策略。梯度裁剪应用于所有模型,其中梯度裁剪在[-1,1]之间。
4.3 训练和验证误差
图3-4给出了每个模型对150 epoch训练产生的训练和验证误差曲线。可以看到,与ResTCN相比,带有我们提出的TFA的ResTCN (ResTCN+TFA)产生了显著较低的训练和验证错误,这证实了TFA模块的有效性。同时,与ResTCN+SA和MHANet相比,ResTCN+TFA的训练和验证误差最低,具有明显的优越性。在三条基线中,MHANet性能最好,ResTCN+SA优于ResTCN。此外,通过对ResTCN、ResTCN+FA和ResTCN+TA的比较,验证了TA和FA模块的有效性。
图3所示。训练误差(a)和验证误差(b)在IRM训练目标上的曲线
图4所示 训练误差(a)和验证误差(b)在PSM训练目标上的曲线
4.4 结果和讨论
本研究采用5个指标广泛评估增强性能,包括宽带语音质量感知评价(PESQ)[32]、扩展短时间目标可理解性(esti)[33]和3个复合指标[34],即信号失真的平均意见评分(MOS)预测指标(CSIG)、背景噪声入侵(CBAK)和整体信号质量(COVL)。
表1和2分别给出了每个信噪比水平(横跨四个噪声源)的平均PESQ和esti得分。评估结果表明,我们提出的ResTCN+TFA在IRM和PSM上的PESQ和ESTOI均比ResTCN取得了显著的改进,参数开销可以忽略不计,证明了TFA模块的有效性。例如,在5 dB SNR的情况下,带IRM的ResTCN+TFA在PESQ上提高了基线ResTCN 0.18,在ESTOI上提高了4.94%。与MHANet和ResTCN+SA相比,ResTCN+TFA在所有情况下均表现出最佳性能,表现出明显的性能优势。在三条基线中,总体而言,绩效排名依次为MHANet >ResTCN + SA>ResTCN。同时,ResTCN+FA和ResTCN+TA也在ResTCN的基础上做了较大的改进,这也验证了FA和TA模块的有效性。表3列出了所有测试条件下CSIG、CBAK和COVL的平均得分。表1和表2中也观察到了类似的性能趋势。同样,我们提出的ResTCN+TFA在三个指标上明显优于ResTCN,并且在所有模型中表现最好。平均而言,与ResTCN+TFA和PSM相比,CSIG提高了0.21,CBAK提高了0.12,COVL提高了0.18。与MHANet相比,采用PSM的ResTCN+TFA使CSIG提高0.12,CBAK提高0.08,COVL提高0.11。
5 结论
在本研究中,我们提出了一种轻量级和灵活的注意单元,称为TFA模块,旨在模拟T-F表示中语音的能量分布。在两个训练目标(IRM和PSM)上以ResTCN为骨干的大量实验证明了所提出的TFA模块的有效性。在所有的模型中,我们提出的ResTCN+TFA始终表现最佳,并在所有情况下显著优于其他基线。未来的研究工作包括调查TFA在更多架构(例如最近的Transformer)和更多训练目标上的有效性。
参考文献
[1] P. C. Loizou, Speech enhancement: theory and practice. CRC press, 2013.
[2] Q. Zhang, M. Wang, Y. Lu, L. Zhang, and M. Idrees, A novel fast nonstationary noise tracking approach based on mmse spectral power estimator, Digital Signal Processing, vol. 88, pp. 41 52, 2019.
[3] Y. Ephraim and D. Malah, Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Trans. Acoust. , Speech, Signal Process. , vol. ASSP-32, no. 6, pp. 1109 1121, Dec. 1984.
[4] Q. Zhang, M. Wang, Y. Lu, M. Idrees, and L. Zhang, Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging, IEEE Access, vol. 7, pp. 80 985 80 999, 2019.
[5] S. Pascual, A. Bonafonte, and J. Serr`a, SEGAN: Speech enhancement generative adversarial network, Proc. INTERSPEECH, pp. 3642 3646, 2017.
[6] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 8, pp. 1256 1266, 2019.
[7] Y. Wang, A. Narayanan, and D. Wang, On training targets for supervised speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 22, no. 12, pp. 1849 1858, 2014.
[8] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks, in Proc. ICASSP, 2015, pp. 708 712.
[9] D. S. Williamson, Y. Wang, and D. Wang, Complex ratio masking for monaural speech separation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 3, pp. 483 492, 2015.
[10] J. Chen and D. Wang, Long short-term memory for speaker generalization in supervised speech separation, The Journal of the Acoustical Society of America, vol. 141, no. 6, pp. 4705 4714, 2017.
[11] S. Bai, J. Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.
[12] Q. Zhang, A. Nicolson, M. Wang, K. K. Paliwal, and C. Wang, DeepMMSE: A deep learning approach to mmse-based noise power spectral density estimation, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1404 1415, 2020.
[13] K. Tan, J. Chen, and D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 27, no. 1, pp. 189 198, 2018.
[14] A. Pandey and D. Wang, TCNN: Temporal convolutional neural network for real-time speech enhancement in the time domain, in Proc. ICASSP, 2019, pp. 6875 6879.
[15] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, L. Kaiser, and I. Polosukhin, Attention is all you need, in Proc. NIPS, 2017, pp. 5998 6008.
[16] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in Proc. CVPR, 2018, pp. 7132 7141.
[17] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, CBAM: Convolutional block attention module, in Proc. ECCV, 2018, pp. 3 19.
[18] V. A. Trinh, B. McFee, and M. I. Mandel, Bubble cooperative networks for identifying important speech cues, Interspeech 2018, 2018.
[19] Q. Zhang, Q. Song, A. Nicolson, T. Lan, and H. Li, Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement, in Proc. Interspeech 2021, 2021, pp. 166 170.
[20] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an asr corpus based on public domain audio books, in Proc. ICASSP, 2015, pp. 5206 5210.
[21] D. B. Dean, S. Sridharan, R. J. Vogt, and M. W. Mason, The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms, in Proc. INTERSPEECH, 2010.
[22] G. Hu, 100 nonspeech environmental sounds, The Ohio State University, Department of Computer Science and Engineering, 2004.
[23] F. Saki, A. Sehgal, I. Panahi, and N. Kehtarnavaz, Smartphone-based real-time classification of noise signals using subband features and random forest classifier, in Proc. ICASSP, 2016, pp. 2204 2208.
[24] F. Saki and N. Kehtarnavaz, Automatic switching between noise classification and speech enhancement for hearing aid devices, in Proc. EMBC, 2016, pp. 736 739.
[25] H. J. Steeneken and F. W. Geurtsen, Description of the rsg-10 noise database, report IZF, vol. 3, p. 1988, 1988. [26] J. Salamon, C. Jacoby, and J. P. Bello, A dataset and taxonomy for urban sound research, in Proc. ACM-MM, 2014, pp. 1041 1044.
[27] D. Snyder, G. Chen, and D. Povey, MUSAN: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.
[28] Y. Zhao, D. Wang, B. Xu, and T. Zhang, Monaural speech dereverberation using temporal convolutional networks with self attention, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 28, pp. 1598 1607, 2020.
[29] A. Nicolson and K. K. Paliwal, Masked multi-head selfattention for causal speech enhancement, Speech Communication, vol. 125, pp. 80 96, 2020.
[30] D. P. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980, 2014. [31] L. Liu, X. Liu, J. Gao, W. Chen, and J. Han, Understanding the difficulty of training transformers, in Proc. EMNLP, 2020, pp. 5747 5763.
[32] R. I.-T. P. ITU, 862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunication standardization sector, 2007.
[33] J. Jensen and C. H. Taal, An algorithm for predicting the intelligibility of speech masked by modulated noise maskers, IEEE/ACM Trans. Audio, speech, Lang. Process. , vol. 24, no. 11, pp. 2009 2022, 2016.
[34] Y. Hu and P. C. Loizou, Evaluation of objective quality measures for speech enhancement, IEEE Trans. Audio, Speech, Lang. process. , vol. 16, no. 1, pp. 229 238, 2007.