DeepFilterNet复现
大概框架
有两路特征,一个ERB特征,另外一个是STFT之后的复数特征。先使用ERB滤波器对ERB特征进行增益,然后再传入DNN模型,两阶段模型。
整体时延最低可达5ms。
这里提到的DeepFilter,其实就是说用神经网络对TF谱进行操作。因为这篇文章比较早,所以叫这么一个名字。
ERB特征
ERB(Equivalent Rectangular Bandwidth)是一个与人耳听觉敏感性密切相关的概念,它用于描述人耳在特定频率下能感知的频带宽度。ERB 模型基于听觉系统的生理和心理特性,尤其是内耳(耳蜗)的频率选择性特点。
基本概念
ERB 模型的基础是耳蜗内部的基底膜,这是一种可以响应不同频率的生物机械结构。不同频率的声音会在基底膜的不同位置产生峰值响应。每个峰值对应的频率范围就是一个临界带(Critical Band),这个带宽可以理解为耳蜗可以分辨两个声音频率差异的最小区域。
ERB的计算
ERB带宽的具体计算方法取决于具体的模型,但广泛使用的一个公式是Moore和Glasberg(1983年)提出的,他们基于心理声学实验的结果得出以下关系式:
这里,( f ) 是中心频率,单位是 Hz,(\text{ERB}(f)) 的单位也是 Hz。
对于实际任务中的处理,优缺点皆有。
由于是相当于一个经验性的成果,所以和Mel频谱类似,只能相当于提供一个粗筛,并不能精细化学习。
优点在于对于算力的要求低,不需要更多的训练就可以得到一个比原来好一些的结果。
ERB滤波器
基于ERB的概念,可以设计出一系列滤波器,这些滤波器的带宽与频率相关,模拟耳蜗对声音的自然处理方式。这种类型的滤波器被称为 ERB 滤波器或者伽马通滤波器(Gamma Tone Filter),每个滤波器覆盖一个临界带宽。通过这些滤波器,音频信号可以被分解成多个频带,每个频带大致对应人耳在该频率下的听觉感知。
应用
ERB 滤波器在多个领域有着广泛的应用,包括:
- 听力学研究:研究和模拟听觉损失,开发助听设备。
- 语音处理:改善语音识别系统的性能,特别是在模拟人类语音感知方面。
- 音乐技术:在音乐合成和音效处理中模拟更自然的听觉效果。
- 心理声学实验:理解听觉感知的机制,进行相关的测试和实验。
通过这种方法,ERB 滤波器不仅可以提供与人耳听觉特性相符的带宽过滤,而且还能在各种应用中模拟人耳的自然听觉反应,从而达到提高音频处理质量和效果的目的。
具体细节
更具体的结构如图所示。
-
架构细节
最高支持48khz,然后FFT帧长大概在5ms到30ms之间,重叠大概在50%。
ERB特征使用对数能量频谱,对它进行对数平均归一化,衰减在1s。然后使用可配置的滤波器,主要是在频带数量方面。
复数频谱特征则使用同样的归一化方法。