论文翻译:2020_CAD-AEC: CONTEXT-AWARE DEEP ACOUSTIC ECHO CANCELLATION
论文地址:https://ieeexplore.ieee.org/abstract/document/9053508
CAD-AEC: 上下文感知的深度回声消除
摘要
基于深度学习的声学回声消除(AEC)方法已经被证明优于经典方法。基于学习的AEC的主要缺点是它依赖于训练集,这限制了它在移动设备和无约束环境中的实际应用。本文通过引入两个主要组件,提出了一种上下文感知的深层AEC(CAD-AEC)。CAD-AEC的第一个组件借鉴了经典AEC的思想,对麦克风信号进行频域自适应滤波,为深层AEC网络提供对开发环境依赖性较小的功能。第二个组件是一个深度上下文注意模块(CAM),插入到循环编码器和解码器架构之间。在推理过程中,deep-CAM使用依赖于上下文的计算出的注意权重自适应地缩放编码器输出。在匹配和非匹配的训练和测试环境中的实验结果表明,与以往的经典和深度学习方法相比,该方法能够获得更好的回声损耗增强(ERLE)和感知语音质量(PESQ)。
关键词:回声消除,深度学习,循环神经网络,门控循环单元,上下文感知
1 引言
当远端用户由于在近端点处的麦克风和扬声器之间的声学耦合而接收到他/她自己的声音的修改版本时,产生声学回声。声学回声消除(AEC)旨在消除声学回声而不失真所需的近端声信号[1]。由于移动通信、智能音箱、可听设备等的爆炸式增长,AEC再次受到关注。
大多数经典的AEC技术都是通过自适应算法来估计声径,然后从麦克风信号中减去声径。归一化最小均方(NLMS)算法[2]由于其简单性和鲁棒性,在声学回声估计中非常流行。此外,残余回声抑制器(RES)通常用于抑制残余回声[3][4]
有监督的深度学习方法最近被用来解决AEC问题。基于学习的AEC在与经过训练的环境类似的环境下进行测试时,已显示出比传统方法有了实质性的改进。但是,在与训练对象完全不同的上下文或条件下使用时,其性能会急剧下降。这限制了它们在移动设备中的实际应用,而移动设备不受特定环境或上下文的限制。
本文提出了基于上下文感知的深层AEC(CADAEC)来提高基于学习的AEC的鲁棒性。CAD-AEC引入了两个主要组件,以使深层AEC适应部署环境的变化,并对训练和测试条件之间的不匹配更具鲁棒性。我们称之为自适应Deep-AEC,其第一个组件借鉴了经典AEC的思想,设计了近端信号和远端信号的自适应频域滤波,为Deep-AEC提供了对开发环境依赖性较小的自适应特性。这可以看作是一种混合方法,结合了经典AEC的优点(能很好地处理看不见的环境)和深度学习方法在学习环境中的优越性能。CAD-AEC的第二个组成部分是上下文注意模块(CAM)。在以前的deep-AEC方法中,经过训练的deep体系结构对输入应用相同的内核和权重,而不考虑推理上下文。我们介绍了一种循环编码器和解码器,它在输入端有一个大的上下文窗口。在编码器和解码器之间插入上下文注意模块。CAM在每个时间步长计算编码特征的重要性,并对其进行不同的缩放。具体地说,引入的CAM自适应地将具有不同上下文感知权重的编码上下文窗口映射到超空间,然后从自适应的编码超空间中解码近端信号的估计特征。
在合成和实际测量的RIR上进行的实验表明,我们提出的CAD-AEC方法可以消除单话和双话期间的回声,即使存在非线性失真,同时保留对近端信号语音质量(PESQ)分数的感知评估。实验还证明了该方法在训练数据与测试数据不匹配的情况下的鲁棒性。本文的其余部分组织如下。第二节介绍了相关工作。第3节详细介绍了我们提出的方法。第四节介绍了我们的实验结果。最后,我们将在第5节中总结我们的发现。
2 相关工作
在过去,神经网络已被用作非线性RES [5]。但是当时,计算能力和训练数据大小的限制导致相对较小的网络实现和有限的总体性能。最近,有限的工作集中在通过使用深度学习模型来提高AEC性能上。 Lee等[6]使用深度前馈神经网络作为非线性RES来抑制AEC之后的剩余分量。 Carbajal等[7]还提出了一种基于RES的神经网络,具有多个输入,包括远端语音,AEC输出和AEC计算的回声。 Zhang and Wang [8]提出了一种基于深度学习的AEC方法,根据麦克风的特征和远端信号来预测掩码,然后将其用于重新合成近端语音信号。zhang等[9]使用卷积循环网络和长短期记忆(LSTM)将近端语音与麦克风录音分开。最近,我们提出了具有多任务学习的深度循环神经网络,以学习估计回声的辅助任务,从而改善估计近端语音信号的主要任务[10]。这项工作与先前提出的方法不同,因为它结合了经典和深度学习技术来创建上下文深度AEC,以更好地适应部署上下文。
3 方法论
3.1 信号模型
在详细描述我们提出的方法之前,我们先介绍一下符号。我们将第k帧和频段f处的任意时域信号的STFT复值频谱表示为。其相位由表示,幅度由表示。令为所有频点和帧k处的幅度矢量且。我们的方法的系统模型和示意图如图1所示。麦克风信号由近端语音信号和回声组成:
其中回声是远端信号的修改版本,包括房间脉冲响应(RIR)和扬声器失真。AEC的目标是在消除由于远端信号引起的任何回声后生成估计的近端信号。

图1 建议的上下文感知的深度AEC的示意图
3.2 自适应深AEC
首先,对麦克风和远端信号进行短时傅里叶变换(STFT)。此外,在频域中进行自适应滤波,其中归一化最小均方(NLMS)更新规则用于估计每个频率单元的声径。然后计算麦克风和估计的声学回声信号之间的频谱误差。该结构利用频域NLMS(FDNLMS)更新规则提取的自适应信息估计近端语音信号。我们提出用深度编解码器GRU网络来估计近端语音信号。具体来说,我们使用远端语音x、麦克风d和自适应误差信号e的对数频谱特征作为输入。目标输出包括近端语音信号s的对数频谱特征。在我们提出的自适应深AEC方法中,我们利用了误差信号的对数谱特征。我们计算STFT域中每个频点的误差信号为:
我们使用自适应NLMS算法将G的参数更新为:
其中步长由远端信号的平均功率归一化,并通过以下方式递归获得:
是介于0和1之间的遗忘因子。
3.3 语境注意模块
我们使用[10]中描述的因果上下文感知输入和输出。在训练过程中,每一个上下文输出帧都针对各自的目标进行了优化。在推理时,最后一帧只作为模型的输出。图2(a)示出了所提出的上下文注意模块。

图2 说明(a)拟议的情境关注模块;(b)注意机制。
编码器采用, 和 的串联,并将它们映射到超空间:
在我们的工作中,我们使用GRU作为编码器,因为它具有很强的序列建模能力[11][12]。编码器由一个指数线性单元(elu)激活的GRU层组成。然后,上下文注意机制利用编码器超空间并注意超空间中的某个重要区域:
如图2(b)所示,我们的注意机制的第一层是多头部自我注意(MHSA)层[13]:
其中,是隐藏状态的维数 和 , 和 是可学习的权重。在MHSA层周围使用残余连接[14],随后使用层归一化[15]。此外,使用了多头部注意(MHA)层,其中对该层的查询是第一层规范化的输出,并且键和值是编码器的输出。再次,在MHA层前后分别使用残余连接和层归一化。最后,具有两层的堆叠GRU获取注意层的输出以在对数谱空间中生成近端信号的估计:
其中“elu”和“线性”激活分别用于解码器的GRU堆栈的第一层和第二层。使用逆短时傅立叶逆变换(iSTFT)从解码器的输出和麦克风信号的相位生成时域信号。对于损失函数,我们在T = 7帧上的对数STFT特征域中计算真实真相近端语音与估计输出之间的平均绝对误差(MAE)。
4 实验评价
4.1 评估指标
声学回声损耗增强度量(ERLE)用于评估在没有近端信号的单次通话期间系统实现的回声减少。ERLE定义为:
其中,E是通过平均实现的统计期望运算。为了评估系统在双讲期间的性能,使用了语音质量的感知评估(PESQ)。PESQ是通过比较估计的近端语音和仅在双讲期间的ground-truth近端语音来计算的。PESQ分数在-0.5到4.5之间,分数越高表示质量越好。
4.2 数据
我们使用TIMIT数据集[16]来评估AEC性能。为了创建数据集,我们遵循了[8]中的步骤:从TIMIT的630个说话人中,随机选择200个说话人作为远端和近端说话人的配对(40个男-女,30个男-男,30个女)。同一个远端说话人的三个话语被随机选择并串联起来以产生一个远端信号。近端说话人的每一个话语都通过在前面和后面填充零扩展到与远端信号相同的大小。近端说话人的七个话语被用来产生3500个训练混合,其中每个近端信号与五个不同的远端信号混合。从剩下的430个扬声器中,我们随机挑选了另外100对扬声器作为远端和近端扬声器。我们遵循与上述相同的程序,但这次仅使用近端扬声器的三个语音来生成300个测试混合,其中每个近端信号与一个远端信号混合。因此,测试混合物来自未经训练的扬声器。
我们使用两个线性和非线性模型来模拟声径。对于声径的非线性模型[17],我们采用hard clipping和 sigmoidal函数分别模拟功率放大器和扬声器的失真,如下所示:
其中并且如果,则 ,否则 。最后,通过将 和 与随机选择的RIR 卷积得到声波路径的线性和非线性模型,如下所示:
其中*表示卷积。
实际测量的RIR来自Aachen脉冲响应数据库[18]。这些RIR是在通常的手持位置(HHP)使用模拟电话捕获的。为了生成训练混合,我们使用了使用图像方法[19]生成的合成RIR或实际测量的RIR。对于试验混合物,我们使用实际测量的“corridor”RIR。
对于训练混合,我们通过混合近端语音信号和回声信号,在{6,-3,0,3,6}dB中随机选择一个信噪比(SER)级别生成麦克风信号。在双讲期间,SER的计算如下:
对于测试混合物,我们生成了三种不同SER水平(0dB、3.5dB和7dB)的麦克风信号。未处理的PESQ分数是通过在双音通话期间将麦克风信号与近端信号进行比较来计算的。
4.3. 模型架构细节
在我们的评估中,语音信号的采样频率为16khz。光谱特征向量使用512点STFT和256点(16ms)的帧偏移来计算。通过去掉共轭对称的一半,将512点的STFT幅度向量减少到257点。通过将对数运算应用于STFT幅度来提取最终的对数幅度谱特征向量。对于FDNLMS更新规则,我们在没有双讲时设置,否则将其设置为非常小的值。FDNLMS中的遗忘因子被设置为0.6。使用AMSGrad优化[20]对所有模型进行训练,设置、、 ,持续100个epoch。批次设置为100。使用Xavier方法[21]初始化所有层的权重,并将偏差设置为零。我们将学习率设置为0.0003。为了避免过度拟合,我们使用L2正则化对所有权重进行正则化,正则化常数为0.000001。使用从训练数据计算的标量,将输入特征归一化为平均值为零,标准偏差为1(单位方差)。
4.4. 结果
作为经典的基准系统,我们使用了基于[22]的FDNLMS方法,并基于麦克风和远端信号的能量进行了双讲检测(DTD)。我们还将我们的结果与文献[6]中提出的DNN方法进行了比较。在我们实现的“FDNLMS+DNN”中,DNN的参数设置为[6]中给出的值。
我们首先评估我们的CAD-AEC在线性模型的声径。在这组实验中,我们使用在“办公室”、“会议室”、“演讲室”、“楼梯1”、“楼梯2”、“浴室”和“演讲室”中采集的真实测量RIR进行训练,并在HHP中使用“corridor”进行测试。这里,训练RIR和测试RIR之间的不匹配很小,因为记录设备是相同的。我们计算了训练和测试RIR之间的平均归一化互相关(NCC)来衡量它们的相似性。这种情况下的NCC为0.97。表1显示了经典基准的平均ERLE值和PESQ分数,以及我们提出的CAD-AEC。此表还显示了编码器-解码器GRU网络的结果,无论是否注意,只将作为输入,分别表示为“E-D GRU”和“E-D GRU+CAM”。即使我们的CAD-AEC方法也优于所有其他方法,但由于训练和测试条件非常相似,“E-D GRU+CAM”方法的性能裕度很小。
表1 在同一设备的实际测量RIRS上训练时,
ERLE和PESQ在声学路径的线性模型中得分

当训练和测试条件与之前的实验有较大差异时,我们进一步评估了我们提出的方法的性能。为此,我们生成了七个用于训练的合成RIR,并再次对实际测量的“走廊”RIR生成的数据进行测试。我们根据[18]中提供的描述将“corridor”环境与混响时间()进行匹配,混响时间从{0.2、0.4、0.6、0.8、0.9、1.0、1.25}s中选择。这里训练和测试RIR之间的平均NCC约为0.58。比较结果见表2。在这个实验中,我们的CAD-AEC方法比“E-D GRU+CAM”方法有很大的优势。图3示出了当使用合成RIR训练模型时,经典FDNLMS、“E-D GRU+CAM”和“CAD-AEC”方法的具有0dB SER的声径线性模型中的AEC示例的频谱图和实际测量的RIR。显然,经典的方法不能去除单话段的回声信号,恢复双话段的近端语音。虽然“E-D GRU+CAM”方法可以显著地去除本例中的回声分量,但是仍然存在残余回声(在标记的矩形中)。另一方面,CAD-AEC方法可以很好地去除回声,近端语音成分几乎完全恢复。
表2 在合成RIR上训练时,声学路径线性模型的ERLE和PESQ得分。


图3 具有CAM,CAD-AEC的经典编码器-解码器GRU
和干净的近端语音的估计近端语音的频谱图。
我们还研究了回声路径非线性模型对本文方法的影响。在这组实验中,我们使用来产生麦克风信号,因此我们的模型包含了功率放大器削波和扬声器失真。我们使用合成RIR进行训练,使用“corridor”RIR进行测试。我们再次将我们的方法的结果与经典的FDNLMS进行了比较。我们还将我们的结果与“E-D GRU+CAM”进行了比较。表3给出的结果表明,该方法在PESQ和ERLE方面都优于其他两种方法。
表3 在合成RIRs上训练时,ERLE和PESQ在非线性声程模型中的得分

5 结论
在这篇论文中,我们提出了一个新的架构,具鲁棒性的声学回声消除。为了使该模型的训练权值不依赖于开发环境,该模型通过对麦克风信号进行频域自适应滤波得到附加的自适应特征来训练。在deep-GRU编码器和解码器之间使用上下文注意模块根据部署上下文缩放编码器输出。与现有的深度学习解决方案相比,我们展示了将FDNLMS与深度上下文注意AEC相结合的好处,特别是当训练和测试条件之间存在很大的不匹配时,我们提出的混合AEC网络可以更显著地减少回声,同时保持近端语音不失真。
6 参考文献
[1] J. Benesty, T. Gansler, D. R. Morgan, S. L. Sondhi, and M. M. Gay, Advances in Network and Acoustic Echo Cancellation. Springer, 2001.
[2] S. Haykin, Adaptive Filter Theory (3rd Ed.). Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 1996.
[3] S. Gustafsson, R. Martin, and P. Vary, “Combined acoustic echo control and noise reduction for hands-free telephony,” Signal Processing, vol. 64, no. 1, pp. 21–32, 1998.
[4] D. A. Bendersky, J. W. Stokes, and H. S. Malvar, “Nonlinear residual acoustic echo suppression for high levels of harmonic distortion,” in ICASSP, 2008, pp. 261–264.
[5] A. Schwarz, C. Hofmann, and W. Kellermann, “Spectral featurebased nonlinear residual echo suppression,” in IEEEWorkshop on Applications of Signal Processing to Audio and Acoustics, 2013, pp. 1–4.
[6] C. M. Lee, J. W. Shin, and N. S. Kim, “DNN-based residual echo suppression,” in INTERSPEECH, 2015, pp. 1775–1779.
[7] G. Carbajal, R. Serizel, E. Vincent, and É. Humbert, “MultipleInput Neural Network-Based Residual Echo Suppression,”in ICASSP, 2018, pp. 231–235.
[8] H. Zhang and D. Wang, “Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios,” in INTERSPEECH, 2018, pp. 3239–3243.
[9] H. Zhang, K. Tan, and D. Wang, “Deep Learning for Joint Acoustic Echo and Noise Cancellation with Nonlinear Distortions,” in INTERSPEECH, 2019, pp. 4255–4259.
[10] A. Fazel, M. El-Khamy, and J. Lee, “Deep Multitask Acoustic Echo Cancellation,” in INTERSPEECH, 2019, pp. 4250–4254.
[11] K. Cho et al., “Learning phrase representations using RNN encoder-decoder for statistical machine translation,” in Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2014, pp. 1724–1734.
[12] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling,” in NIPS Workshop on Deep Learning, 2014.
[13] A. Vaswani et al., “Attention is All you Need,” in Advances in Neural Information Processing Systems, 2017, pp. 5998–6008.
[14] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.
[15] J. L. Ba, J. R. Kiros, and G. E. Hinton, “Layer Normalization,” arXiv Preprint arXiv:1607.06450, 2016.
[16] L. F. Lamel, R. H. Kassel, and S. Seneff, “Speech Database Development: Design and Analysis of the Acoustic-Phonetic Corpus,” in Workshop on Speech Input/Output Assessment and Speech Databases, 1989.
[17] S. Malik and G. Enzner, “State-Space Frequency-Domain Adaptive Filtering for Nonlinear Acoustic Echo Cancellation,” IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no. 7, pp. 2065–2079, 2012.
[18] M. Jeub, M. Schäfer, H. Krüger, C. Nelke, C. Beaugeant, and P. Vary, “Do we need dereverberation for hand-held telephony?,” in Proceedings of 20th International Congress on Acoustics, 2010, pp. 1–7.
[19] J. B. Allen and D. A. Berkley, “Image method for efficiently simulating small-room acoustics,” Acoustical Society of America Journal, vol. 65, pp. 943–950, Apr. 1979.
[20] S. J. Reddi, S. Kale, and S. Kumar, “On the Convergence of Adam and Beyond,” in ICLR, 2018.
[21] X. Glorot and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in AISTATS, 2010, vol. 9, pp. 249–256.
[22] C. Faller and J. Chen, “Suppressing acoustic echo in a spectral envelope space,” IEEE Trans. Speech Audio Process., vol. 13, no. 5, pp. 1048–1061, 2005.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具