论文翻译:2020_Demucs:Real Time Speech Enhancement in the Waveform Domain
论文作者:facebook AI 研究所
1 引言
2 方法
2.1 符号和问题设置
2.2 DEMUCS架构
DEMUCS包含一个多层卷积编码器和解码器,带有U-net[12] skip connections,以及一个用于编码器输出的序列建模网络。特点是其层数
我们使用[16]提出的方案初始化所有模型参数。 最后,我们注意到在将音频feed到编码器之前对音频进行上采样
(a) 因果Demucs,嘈杂的语音作为输入在底部,干净的语音作为输出在顶部。
箭头表示UNet skip connections。
(b) 每个编码器层(底部)和解码器层(顶部)的视图。箭头是与模型其他部分的连接。
2.3 目标
3 实验
3.1 复现细节
评价方法我们采用客观和主观两种方法来评价增强语音的质量。对于客观测量,我们使用:(i) PESQ:语音质量的感知评估,使用ITU-T P.862.2[24](从0.5到4.5)推荐的宽带版本(ii)短时客观清晰度(STOI)[25](从0到100)(iii) CSIG:平均意见评分(MOS)预测仅对语音信号[26]的信号失真(从1到5)。(iv) CBAK:对背景噪声[26]的干扰的MOS预测(从1到5)。(v) COVL:对整体效果[26]的MOS预测(从1到5)。
对于主观测量,我们进行了ITU-T P.835[27]推荐的MOS研究。为此,我们使用CrowdMOS包[28]进行了众包评估。我们随机抽取100个话语,每一个都由15个不同的评分者沿着三个轴进行评分:扭曲程度,背景噪音干扰程度和整体质量。对所有注释器和查询的平均结果给出最终分数。
训练 我们在 Valentini [18] 数据集上训练 DEMUCS 模型 400 个时期,在 DNS [19] 数据集上训练 250 个时期。 我们使用预测和真实干净语音波形之间的 L1 损失,并且对于 Valentini 数据集,还添加了第 2.3 节中描述的 STFT 损失,权重为 0.5。 我们使用 Adam 优化器,步长为 3e−4,动量 B1 = 0.9,分母动量 B2 = 0.999。 对于 Valentini 数据集,我们使用原始验证集并保留最佳模型,对于 DNS 数据集,我们在没有验证集的情况下训练并保留最后一个模型。 音频以 16 kHz 采样。
模型 我们使用第 2 节中描述的 DEMUCS 架构的三个变体。对于非因果 DEMUCS,我们取 U=2、S=2、K=8、L=5 和 H=64。 对于因果 DEMUCS,我们取 U=4、S=4、K=8 和 L=5,以及 H=48 或 H=64。 在将输入输入模型之前,我们通过其标准差对输入进行归一化,并按相同的因子缩小输出。 对于因果模型的评估,我们使用标准偏差的在线估计。 使用此设置,因果 DEMUCS 处理音频的帧大小为 37 毫秒,步长为 16 毫秒。
数据增强 我们总是在 0 到 S 秒之间应用随机移位。
Remix 增强将一batch中的噪音打乱以形成新的带噪语音。
Band-Mask 是一种带阻滤波器,其阻带介于
因果流评估 为了在真实条件下测试我们的因果模型,我们在测试时使用特定的流实现。 我们不使用音频的标准偏差进行标准化,而是使用直到当前位置的标准偏差(即我们使用累积标准偏差)。我们保留过去输入/输出的小缓冲区,以限制正弦重采样滤波器的副作用。 对于输入上采样,我们还使用了 3ms 的前瞻,这使模型的总帧大小达到 40 ms。 当将模型应用于信号的给定帧时,输出的最右边部分无效,因为需要未来的音频来正确计算转置卷积的输出。 尽管如此,我们注意到使用这个无效部分作为流下采样的填充大大提高了 PESQ。 流实现是纯 PyTorch。 由于帧之间的重叠,需要注意缓存不同层的输出。
3.2 结果
3.3 消融
3.4 实时评估
3.5 对ASR模型的影响
4 相关工作
在考虑因果方法的同时,[46] 中的作者提出了一种频谱级别的卷积循环网络用于实时语音增强,而 Xia、Yangyang 等人则提出了 [30] 建议去除卷积层并应用加权损失函数以进一步改善实时设置的结果。 最近,[23] 中的作者使用最小均方误差噪声功率谱密度跟踪器为因果模型和非因果模型提供了令人印象深刻的结果,该跟踪器采用了时间卷积网络 (TCN) 先验 SNR 估计器。
5 讨论
6 参考文献
