论文翻译:2020_TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids
音频地址:https://github.com/Bose/efficient-neural-speech-enhancement
引用格式:Fedorov I,Stamenovic M,Jensen C,et al. TinyLSTMs:Efficient neural speech enhancement for hearing aids[J]. arXiv preprint arXiv:2005.11138,2020.
摘要
现代语音增强算法利用大量递归神经网络(RNNs)实现了显著的噪声抑制。然而,大型RNN限制了助听器硬件(hearing aid hardware,HW)的实际部署,这些硬件是电池供电的,运行在资源受限的微控制器单元(microcontroller units,MCU)上,内存和计算能力有限。在这项工作中,我们使用模型压缩技术来弥补这一差距。我们在HW上对RNN施加约束,并描述了一种方法来满足它们。虽然模型压缩技术是一个活跃的研究领域,但我们是第一个证明其有效性的RNN语音增强,使用剪裁和权重/激活的整型量化。我们还演示了状态更新跳跃,它可以减少计算负载。最后,我们对压缩模型进行感知评估,人类评分员对语音进行打分。结果显示,与基线相比,压缩模型的模型size和operation(操作)分别减少了11.9和2.9,在听力偏好上没有统计差异,只损失了0.55dB SDR。我们的模型实现了2.39ms的计算延迟,在10 ms的目标范围内,比之前的工作好351*。
关键词:噪声抑制,语音增强,循环神经网络,剪枝,量化
1 引言
健康的耳朵是一个复杂的非线性系统,能够在大的动态范围内工作。当耳朵受损时,听觉系统可以用助听器(HA)增强,它可以执行一些耳朵不再能做的放大和过滤功能。语音增强(SE)可以缓解嘈杂环境中的听力困难,这是HA用户最关注的问题之一[1,2,3]。
最近的SE方法通常由循环神经网络(RNN)体现[5,6]。SE模型必须实现低音频延迟,以确保测听者舒适。音频延迟被定义为噪声到达HA和助听器产生的纯净语音之间的延迟。可以容忍的延迟量取决于HA类型和如何处理用户自己的语音[7,8,9]。使用之前的工作[7,8,9]作为指导方针,我们的目标是最大音频延迟为30 ms。对于我们使用的基于帧的方法,由于帧和因果模型之间有50%的重叠,处理每帧的计算延迟约束为10ms。
HA形式因素强加了另一组约束,特别是在结合帧处理需求时。由于其体积小,采用了单片机(MCU)硬件平台。MCU实现了廉价、低功耗的计算,但代价是严重的内存和计算约束[10]。MCU Flash内存限制了最大允许模型尺寸(maximum allowed model size,MS),而SRAM内存限制了模型工作内存(upper bounds model working memory,WM),即用于存储中间结果的内存。为了实现高效的计算,SE模型必须量化为整型数据类型,我们必须最小化每秒所需的操作(ops)数量(ops/s),其中op表示单个加法或乘法。本文以STM32F746VE MCU[4]作为典型的HW平台,该MCU包含一个216MHz Arm Cortex-M7 [11],512KB Flash内存,320KB SRAM。我们使用Mbed OS[12]和CMSIS内核[13,14]。表1总结了SE模型约束。
表1:模型约束。MOps/inf表示每帧推理有
最近的一些论文考虑了类似的限制。 例如,威尔逊等人[6]使用黑盒优化器在一系列因果和非因果模型中搜索 SE 模型,这些模型包括对模型输入的计算量大的卷积。 模型复杂性在搜索中没有明确限制,报告的模型在 3.7-248 MB 范围内,违反了 MS 限制。 此外,一些模型在前端包含许多层扩张卷积,这需要大约 4.4 MB 的 WM,违反了 WM 约束。
其他的研究试图剪裁[15]和量化[16]RNN,但没有将他们的技术应用于SE。尽管参数在[16]中是量化的,但激活不是量化的,因此计算结果不适合整型算法。此外,[15,16]也不清楚剪枝和量化是否可以联合应用于RNNs。在Wu等人的[17]中,对一个非循环卷积SE模型进行了剪枝和量化。然而,它们对非均匀量化的使用需要非标准HW支持[18],以避免在从内存中加载每个权值后对其进行解码,从而产生重大的性能开销。对于大的感受野,卷积模型可能还需要以音频采样率运行的大缓冲区。 这极大地扩张了 WM ,并极大地缩短了计算时间的限制。 最后,Hsu等人[19]分别对循环SE模型[19]和卷积SE模型[19]的浮点尾数和指数值进行了量化研究,但这些量化的权值仍然需要在浮点HW中运行,并导致了解压的开销。
在本工作中,我们提出了一种方法来生成满足表1要求的优化RNN SE模型。首先,我们演示了对SE LSTM进行剪枝,以减少MS、WM和ops,而不会导致SE性能下降。通过扩展[15],我们直接学习优化范围内的剪裁阈值,避免了超参数搜索的开销,与之前的工作[6]相比,减少了255个GPU小时(GPUH)。其次,我们首次证明了标准加权和激活量化技术可以很好地应用于SE RNNs。此外,我们还证明了剪枝和量化可以联合应用于SE RNNs,这也是我们工作的独特之处。最后,我们提出了一个跳过RNN状态更新的方案,以减少平均操作次数。
我们优化的SE模型使用传统的客观指标进行评估,以及对音频输出的主观感知评估。我们的音频源文件可以在online上找到。相对于[5,6,17,19,20,21],我们的感知研究是对 [5, 6, 17, 19, 20, 21] 的显着改进,因为(压缩的)SE 模型通常会表现出未反映在诸如 SNR 等客观指标中的声学伪影。 最后,我们在 MCU 上分析我们的模型,以验证它们是否满足硬件约束,如表 1 所示。
2 背景
设小写和大写符号分别表示向量和矩阵,设
2.1 语音增强
设
其中帧是幂律压缩,指数为0.3,以减少大值的优势。
2.2 基线模型架构
由于延迟的要求,我们把注意力放在因果模型[5]上,因此
其中
3 为HA硬件优化LSTM
本节介绍了SE模型的优化,如2.2节中的优化,以满足表1中给出的约束条件。我们开始描绘MS(model size)和计算成本的依赖于模型的性质。然后,在3.2-3.3节中,我们描述了我们提出的方法。
MS是所有层中参数的总数,乘以每个矩阵的数据类型。每次推理所需的操作数量也取决于参数的数量,因为(几乎)在我们的模型中执行的所有操作都是矩阵向量乘法,每个参数需要2个操作(乘和加)。尽管操作计数与模型量化无关,但在实际硬件上实现的吞吐量在精度较低的整型数据类型下要高得多。因此,为了减少总体延迟,我们采用了两种优化方法:1)剪枝以减少操作,2)权值/激活量化(weight/activation quantification),从而减少MS,并支持使用低精度整型算法[25]进行部署。
3.1 结构化剪枝
剪枝是一种成熟的网络优化方法[26,27]。我们使用结构化剪枝,因为它在模型大小和吞吐量方面都有直接的好处[28]。这与随机剪枝不同,随机剪枝在真实的HW上更难利用,除非稀疏性非常高。我们首先将
其中
3.2 量化
令
其中,
3.3 skip RNN 单元(cell)
最后,我们评估了skip RNN方法[30],它可以被认为是一种动态时间剪枝的形式。在{0,1}中引入一个二进制神经元
其中
其中
实际上,这种跳过更新的方法在训练和评估指标上执行得很好,但是会产生音频伪影,因为当LSTM skip时,掩码本身没有更新。为了弥补这一点,引入了两个指数移动平均线(EMAs)来及时平滑模型。首先,一个上下文向量,
4 实验结果
在所有的实验中,我们使用Tensorflow中的随机梯度下降(Stochastic Gradient Descent,SGD)来优化目标。我们使用32ms帧,16ms帧移和16kHz采样率进行基线、剪枝和量化实验。对于skip RNN实验,我们使用的帧长和帧移分别为25ms和6.25ms。所有方法都使用CHiME2 WSJ0数据集[31]进行训练和评估,该数据集分别包含7138个训练词、2560个开发词和1980个测试词。这三个子集都包括信噪比(SNRs)在-6到9dB范围内的话语。噪音数据由记录在客厅环境中的高度不稳定的干扰源组成,包括真空吸尘器、电视和儿童。虽然数据集是在双耳立体声中提供的,但我们通过对通道维数求和来进行预处理,以获得单耳输入和目标,而[6]使用完整的双耳输入来预测双耳掩模。对于最终的客观评估,我们使用信号失真比(SDR)[32]。然而,在训练过程中,我们使用更简单的比例不变信号失真比(SI-SDR),因为它的计算成本更低,并且与SDR[33]很好地相关。
4.1 基线模型
我们首先确认我们的基线SE模型与最新技术相比具有竞争力。我们的基线在CHiME2开发集上实现了12.77dB SDR(表2),在测试集上实现了13.70dB SDR(表3),与[34,20]相当。
表2:在CHiME2开发集和STM32F746VE上的模型性能,在绘制0.54W时以155MOps/s的速度运行。符号*表示最佳情况估计,因为基础模型是浮点的,测量是为整型算法。
符号
4.2 结构化剪枝和量化
接下来,我们检查结构剪枝和量化对基线模型的影响。在所有情况下,我们设
表3:在CHiME2测试集上评估的模型性能
图1:MS 与 SISDR。每个点代表一个模型检查点,线代表一个帕累托前沿
我们优化的模型实现了适合于音频管道中更小的帧处理时间(帧移)的延迟。然而,较小的帧移会增加推理频率和能量消耗。因此,为了解决这个挑战,我们在压缩模型上应用skip RNN架构。 Pruned Skip RNN (INT8) 的结果显示,在 CHiME2 开发集(表 2)上为 12.07dB SDR,在测试集上为 12.96dB SDR(表 3)。 尽管跳过 RNN 每秒需要更多推理,但与 Pruned (INT8) 2 相比,63% 的skip rate导致每次推理的平均能量消耗减少。
最后,表2详细描述了每个模型。尽管[20,6]中的模型取得了稍好的SISDR/SDR性能,但其MS、WM和MOps/inf严重违反了HA HW约束。相比之下,Pruned (INT8)模型2和Pruned Skip RNN (INT8)可以部署在真正的HA MCU上,并提供显著的SE功能。与[20,6]相比,我们的模型实现了2.39-6.71ms范围的计算延迟,满足了10ms的要求。此外,与[20,6]相比,本文提出的模型每推理消耗的能量显著减少,从而提高了HA电池寿命。
4.3 感知评价
人类对音频质量的感知是高度主观的,并不总是与客观指标相关。因此,为了理解真实世界的表现,我们进行了感知研究,以获得与基线相比,优化模型质量的主观反馈。我们对两个Pruned (INT8)模型进行了调查(表2),每个模型由50名参与者组成的不相交集合组成。从CHiME2评估集的6个信噪比级别中随机选择两个样本,共12个样本话语。每个参与者被随机呈现原始和处理后的话语的配对比较基线和修剪和量化模型,导致每个参与者有 24 个配对比较。 鉴于提示考虑到语音的清晰度和质量,您更喜欢哪种录音? ,参与者在 7 分Likert scale表 [35] 上对比较偏好进行评分,范围从强烈喜欢未处理到强烈喜欢增强,以无偏好为中点。
图2的结果显示,参与者平均表现出对增强音频的中度偏好。我们注意到,与提高HA噪声语音性能的行业标准方法相比,这一方法效果更好,在类似的研究中,与未处理的[36]相比,参与者表达了对定向处理音频的轻微偏好。我们使用aWilcoxon符号秩检验[37]比较了对未压缩(基线)和压缩(剪裁和量化)模型的偏好与原始未处理的话语,发现SNRs之间的评级没有统计学差异(调查1:Z = 0.09,p = 0.92;调查2:Z = 0.19,p = 0.85),表明参与者更喜欢增强的音频,不管它是由基线模型还是优化模型产生的。
图2 知觉研究参与者对增强音频和未处理音频(包括未压缩和剪裁)的偏好左为Pruned (INT8) 1,右为Pruned (INT8) 2。
5 结论
神经语音增强技术是未来HA产品的关键技术。然而,由于要获得令人满意的音频性能需要大量的网络网络,因此对于电池供电的小型HW来说,延迟和功耗的限制是非常难以满足的。在这项工作中,我们应用了结构剪裁和整数量化的输入,权重和激活,以减少11.9模型大小,与基线相比。与最小的压缩模型相比,我们还应用了skip RNN技术,进一步减少了每次推理的运算量1.78。我们优化的模型显示在客观(SISDR)指标上可以忽略不计的退化,在主观的人类感知评价上没有统计差异。虽然我们的基线模型在我们的目标HW平台上的计算延迟为12.52ms,但优化后的实现达到了4.26ms,这足以满足10ms的计算延迟目标。
6 参考文献
[1] S. Kochkin,MarkeTrak V:Why my hearing aids are in the drawer the consumers perspective,The Hearing Journal,vol. 53,no. 2,pp. 34 36,2000.
[2] H. B. Abrams and J. Kihm,An introduction to marketrak ix:A new baseline for the hearing aid market,Hearing Review,vol. 22,no. 6,p. 16,2015.
[3] (2020) Hearing aids,the ultimate guide:Types,features,prices,reviews,and more. [Online]. Available:https://www. hearingtracker.com/hearing-aids
[4] ST Microelectronics STM32F746VE. [Online]. Available:https://www.st.com/content/ st com/en/products/microcontrollers-microprocessors/ stm32-32-bit-arm-cortex-mcus/stm32-high-performance-mcus/ stm32f7-series/stm32f7x6/stm32f746ve.html
[5] D. Takeuchi,K. Yatabe,Y. Koizumi,Y. Oikawa,and N. Harada,Real-time speech enhancement using equilibriated rnn,in ICASSP 2020 - 2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2020,pp. 851 855.
[6] K. Wilson,M. Chinen,J. Thorpe,B. Patton,J. Hershey,R. A. Saurous,J. Skoglund,and R. F. Lyon,Exploring tradeoffs in models for low-latency speech enhancement,in 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). IEEE,2018,pp. 366 370.
[7] M. A. Stone and B. C. J. Moore,Tolerable hearing aid delays. i. estimation of limits imposed by the auditory path alone using simulated hearing losses,Ear and Hearing,vol. 20,no. 3,pp. 182 192,1999.
[8] ,Tolerable hearing aid delays. ii. estimation of limits imposed during speech production,ear and hearing,Ear and Hearing,vol. 23,no. 4,pp. 325 338,2002.
[9] ,Tolerable hearing aid delays. iii. effects on speech production and perception of across-frequency variation in delay,Ear and Hearing,vol. 24,no. 2,pp. 175 183,2003.
[10] I. Fedorov,R. P. Adams,M. Mattina,and P. N. Whatmough,SpArSe:Sparse architecture search for CNNs on resourceconstrained microcontrollers,in Advances in Neural Information Processing Systems (NeurIPS),2019,pp. 4978 4990.
[11] Arm Cortex-M7 Embedded Processor. [Online]. Available:https://developer.arm.com/ip-products/processors/cortex-m/cortex-m7
[12] Arm Mbed. [Online]. Available:https://os.mbed.com/
[13] Arm CMSIS Library. [Online]. Available:https://github.com/ ARM-software/CMSIS
[14] L. Lai,N. Suda,and V. Chandra,CMSIS-NN:efficient neural network kernels for arm cortex-m cpus,CoRR,vol. abs/1801.06601,2018.
[15] W. Wen,Y. He,S. Rajbhandari,M. Zhang,W. Wang,F. Liu,B. Hu,Y. Chen,and H. Li,Learning intrinsic sparse structures within long short-term memory,in International Conference on Learning Representations,2018.
[16] L. Hou,J. Zhu,J. Kwok,F. Gao,T. Qin,and T.-y. Liu,Normalization helps training of quantized LSTM,in Advances in Neural Information Processing Systems,2019,pp. 7344 7354.
[17] J. Wu,C. Yu,S. Fu,C. Liu,S. Chien,and Y. Tsao,Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques,IEEE Signal Processing Letters,vol. 26,no. 12,pp. 1887 1891,2019.
[18] S. Han,X. Liu,H. Mao,J. Pu,A. Pedram,M. A. Horowitz,and W. J. Dally,Eie:efficient inference engine on compressed deep neural network,ACM SIGARCH Computer Architecture News,vol. 44,no. 3,pp. 243 254,2016.
[19] Y.-T. Hsu,Y.-C. Lin,S.-W. Fu,Y. Tsao,and T.-W. Kuo,A study on speech enhancement using exponent-only floating point quantized neural network (eofp-qnn),in 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE,2018,pp. 566 573.
[20] H. Erdogan,J. R. Hershey,S. Watanabe,and J. Le Roux,Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks,in 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2015,pp. 708 712.
[21] F. Weninger,H. Erdogan,S. Watanabe,E. Vincent,J. Le Roux,J. R. Hershey,and B. Schuller,Speech enhancement with LSTM recurrent neural networks and its application to noise-robust asr,in International Conference on Latent Variable Analysis and Signal Separation. Springer,2015,pp. 91 99.
[22] Y. Wang,A. Narayanan,and D. Wang,On training targets for supervised speech separation,IEEE/ACM transactions on audio,speech,and language processing,vol. 22,no. 12,pp. 1849 1858,2014.
[23] S. Hochreiter and J. Schmidhuber,Long short-term memory,Neural computation,vol. 9,no. 8,pp. 1735 1780,1997.
[24] S. S. Stevens,J. Volkmann,and E. B. Newman,A scale for the measurement of the psychological magnitude pitch,Journal of the Acoustical Society of America,vol. 8,pp. 185 190,1937.
[25] B. Jacob,S. Kligys,B. Chen,M. Zhu,M. Tang,A. Howard,H. Adam,and D. Kalenichenko,Quantization and training of neural networks for efficient integer-arithmetic-only inference,in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018,pp. 2704 2713.
[26] Y. LeCun,J. S. Denker,and S. A. Solla,Optimal brain damage,in Advances in neural information processing systems,1990,pp. 598 605.
[27] M. C. Mozer and P. Smolensky,Skeletonization:A technique for trimming the fat from a network via relevance assessment,in Advances in neural information processing systems,1989,pp. 107 115.
[28] W. Wen,C. Wu,Y. Wang,Y. Chen,and H. Li,Learning structured sparsity in deep neural networks,in Advances in neural information processing systems,2016,pp. 2074 2082.
[29] D. Stamoulis,R. Ding,D. Wang,D. Lymberopoulos,N. B. Priyantha,J. Liu,and D. Marculescu,Single-path mobile automl:Efficient convnet design and nas hyperparameter optimization,IEEE Journal of Selected Topics in Signal Processing,pp. 1 1,2020.
[30] V. Campos,B. Jou,X. Gir o i Nieto,J. Torres,and S. Chang,Skip RNN:learning to skip state updates in recurrent neural networks,in International Conference on Learning Representations,2018.
[31] E. Vincent,J. Barker,S. Watanabe,J. Le Roux,F. Nesta,and M. Matassoni,The second chimespeech separation and recognition challenge:Datasets,tasks and baselines,in 2013 IEEE International Conference on Acoustics,Speech and Signal Processing. IEEE,2013,pp. 126 130.
[32] E. Vincent,R. Gribonval,and C. F evotte,Performance measurement in blind audio source separation,IEEE transactions on audio,speech,and language processing,vol. 14,no. 4,pp. 1462 1469,2006.
[33] J. Le Roux,S. Wisdom,H. Erdogan,and J. R. Hershey,Sdr half-baked or well done? in ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2019,pp. 626 630.
[34] F. Weninger,J. R. Hershey,J. Le Roux,and B. Schuller,Discriminatively trained recurrent neural networks for single-channel speech separation,in 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP). IEEE,2014,pp. 577 581.
[35] R. Likert,A technique for the measurement of attitudes,Archives of Psychology,vol. 140,pp. 1 55,1932.
[36] J. M. Vaisberg,A. Sabin,and S. Banerjee,Speech-in-noise benefits using Bose directional technology,in American Academy of Audiology Conference,2020. [37] F. Wilcoxon,Individual comparisons by ranking methods,Biometrics,vol. 1,pp. 80 83,1945.
作者:凌逆战
欢迎任何形式的转载,但请务必注明出处。
限于本人水平,如果文章和代码有表述不当之处,还请不吝赐教。
本文章不做任何商业用途,仅作为自学所用,文章后面会有参考链接,我可能会复制原作者的话,如果介意,我会修改或者删除。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· 展开说说关于C#中ORM框架的用法!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?