Gabor相关研究引文
2018,GBFB(spectro-temporal Gabor filter bank)
语音鲁棒特征又可以划分为基于统计特征的鲁棒特征和基于听觉机理的鲁棒特征这2大类。
与统计特性的特征不同,基于生物机理的声学特征提取尝试模拟生理器官对语音的感知来描述声学特征,常见的特征有LPCC[6],MFCC[7]和GFCC[8]。
LPCC是线性预测系数(LPC)的倒谱参数,可以较好反映声道特性,但对于频率特性的反映不符合实际。
基于MEL谱[9]的MFCC特征考虑了人类听觉系统的基本听觉原理,如频率分辨率和强度感知,却对语音信号高频段的特性描述精度不足。
GFCC特征,通过动态地模拟人耳基底膜来提取特征,很大程度上提升了识别的鲁棒性。
毋庸置疑,上述特征的研究对于语言识别鲁棒性的提升作出了很大贡献,但是它们都基于特定的域进行特征提取,这导致局部特征的丢失。
针对上述工作的不足,本文尝试通过联合时域和频域来提取声学特征,提出一种利用Gabor滤波器[10]跨时域和频域提取声学特征的方法,并将高维GBFB特征映射到时域和频域不同的子空间中,从而消除噪声成分,保留鲁棒特征,经实验证明,GBFB特征在噪声环境下与常见的几种声学特征相比有更好的鲁棒性。
2015,陶华伟等人提出了基于语谱图纹理特征的语音情感识别方法,利用语谱分析情感语音,为语音情感识别研究提供了新思路。
语音信号间相关性的研究,往往仅集中在频域或时域中,将语音信号时频两域的相关性相结合的文献则较少,语谱图是一种语音能量时频分布的可视化表达方式,其横轴代表时间,纵轴代表频率,连通了时频两域,将语谱图的频率点建模为图像的像素点,便可利用图像特征探讨相邻频点间的联系,为研究时频两域相关性提供了一种新的思路。
基于此,本文提出了一种面向语音情感识别的语谱图特征提取算法。首先,提取情感语音的语谱图;然后,将提取到的语谱图进行归一化处理,得到语谱图灰度图像;再次,利用Gabor小波计算不同方向、不同尺度语谱图的Gabor图谱,并利用局部二值模式抽取语谱图的Gabor图谱的纹理信息;最后,将不同尺度、不同方向Gabor图谱抽取到的LBP特征级联,组成一种新的语音情感特征。在柏林库和FAU AiBo库上的实验结果表明,基于本文提出的特征能够较好地识别不同种类情感,此外,与现有声学特征融合后还可有效地提升识别率。
2015,
经过多年对鲁棒自动语音识别(ASR)的研究,人类听众在现实的声学环境中仍然优于ASR系统(Lippmann, 1997;迈耶等人,2011;Barker等人,2013)。受人类听觉系统在最困难的声学条件下解码语音信号的能力的启发,听觉信号处理的许多原理被集成到ASR系统中,试图提高它们的识别性能。这些方法通常针对特征提取阶段(前端),其中更有形的外围听觉过程可以映射到信号处理算法,这比识别阶段(后端)更特定于听觉过程。目前的研究旨在改进前端,通过独立的谱时处理来提取谱时调制特征,而不是联合的谱时处理。
ASR系统中使用的许多语音表示(或特征)来自已经包含基本听觉原理的声音的频谱时间表示,如对数梅尔谱图(LMSpec)。LMSpec是一个具有对数振幅和梅尔频率缩放的频谱图。它考虑了人类听觉系统非常基本的听觉原理,例如频率分辨率和强度的对数感知。然而,这些静态的光谱时间表征本身是不太适合作为健壮的语音特征,因为环境变化,如附加噪声和混响,强烈地影响它们。
固有动态语音信号的特征可以更好地表示在频谱-时域表示中发生的跨频率和随时间的变化;这就是为什么许多健壮的特征是通过编码频谱或时间变化来提取的。光谱处理的一个例子是仍然广泛使用的Melfrequency倒谱系数(MFCCs),它在LMSpec的光谱维度上执行离散余弦变换(Davis和Mermelstein, 1980)。时序处理的一个例子是离散时序一阶导数和二阶导数的计算,称为delta和双delta,通常用于编码MFCC的动态和其他特征。为了提高ASR系统的鲁棒性,许多其他不同动机的频谱和时间处理方案被结合起来(例如,Hermansky, 1990;Hermansky等,1992;Hermansky和夏尔马,1999;Nadeu等人,2001;Hermansky和Fousek, 2005;Moritz等人,2011),但没有将频谱与时间处理联系起来,反之亦然。
在方法中加入频谱和时间调制处理,从而允许两者间更高阶的依赖性,小施密特(2002)和小施密特等。(2002)发现生理动机(Qiu et al.;2003)二维(2D)光谱时间Gabor滤波器是很好的候选人。除了在ASR系统中的应用外,许多研究表明使用2D Gabor滤波器来提取声学信号和语音分析的谱时特征(例如,Chi等人,2005;Mesgarani等人,2006 ;Ezzat et al., 2007)。由于在早期使用2D Gabor滤波器提取特征的方法中,滤波器参数是以数据驱动的方式确定的,因此一些特征维度高度相关,Meyer和Kollmeier(2011)通过串联设置将这些Gabor特征映射到中间音素概率层,并将其与标准高斯混合模型(GMM)和基于隐马尔可夫模型(HMM)的识别后端一起使用。最近,在构造2D Gabor滤波器参数空间并获得一组用于鲁棒语音识别的通用2D Gabor滤波器的方法中,引入了2D Gabor滤波器组GBFB(spectro-temporal Gabor filter bank)特征,并证明了当它们直接用于ASR系统时,可以提高ASR系统的鲁棒性标准结构GMM/HMM后退和Moritz等人(2013)。图1所示为GBFB的2D频谱-时间滤波器,通过对每个语音特征用LMSpec进行2D卷积来提取鲁棒性语音特征,并覆盖了被发现有利于ASR鲁棒性的光谱和时间调制频率范围。
GBFB特征的提取在第IIB节中有详细的解释。Meyer和Kollmeier(2011)将鲁棒性的改进归因于局部增加的信噪比,这是由于对更复杂的频谱-时间模式的语音模式具有更高的敏感性,最显著的是区分向上和向下频谱-时间模式的能力(参见图1中的离轴滤波器)。Schröder等人(2013)发现,使用GBFB特征可以提高与语音无关的声学事件检测任务中的识别性能;这证实了用于声学识别任务的GBFB滤波器集的通用性。然而,联合光谱-时间处理模型不允许光谱处理的变化不影响时间处理,反之亦然;这意味着所有单独的光谱和时间处理模型都是不够的。目前尚不清楚哺乳动物听觉系统中的频谱处理和时间处理在多大程度上相互作用(Depireux et al., 2001;Qiu等人,2003)。此外,更复杂的2D滤波过程导致特征提取的计算成本相当高。如果光谱处理和时间处理是独立的过程,上述限制就不适用了。
在这项研究中,研究人员调查了使用结构化的光谱GBFB方法获得的鲁棒性的改进是否需要复杂的联合2D光谱时间处理,或者是否可以使用两个1D gbb单独的光谱和时间处理来提取表现相似或更好的特征。其基本思想是将GBFB中不可分离的向上和向下的二维模式替换为可分离的模式,然后用1D Gabor滤波器分别进行频谱和时间滤波。
Qiu et al.;2003
Gabor analysis of auditory midbrain receptive fields: Spectro-temporal and binaural composition
Chi et al.,2005;
Multiresolution spectrotemporal analysis of complex sounds
Mesgarani et al.,2006 ;
Discrimination of speech from non-speech based on multiscale spectro-temporal modulations
Ezzat et al., 2007
Spectro-temporal analysis of speech using 2-D Gabor filters
Meyer和Kollmeier(2011)
Effect of speechintrinsic variations on human and automatic recognition of spoken phonemes
Moritz等人(2013)
Noise robust distant automatic speech recognition utilizing NMF based source separation and auditory feature extraction
Schröder等人(2013)
On the use of spectro-temporal features for the IEEE AASP challenge ‘Detection and classification of acoustic scenes and events’
2017,
以往的研究支持将基于听觉的Gabor特征与深度学习架构相结合以实现鲁棒自动语音识别的想法,然而,这种结合背后的原因仍然未知。我们相信这些表示法为深度学习解码器提供了更具辨识性的线索。本文的目的是通过使用三种不同的识别任务(Aurora 4, CHiME 2和CHiME 3)进行实验来验证这一假设,并评估由Gabor滤波器组特征编码的信息的可鉴别性。此外,为了识别Gabor滤波器组的低、中、高时间调制频率子集的贡献,将其作为特征(分别称为LTM、MTM和HTM)。当时间调制频率在16到25 Hz之间时,HTM在每种条件下都优于其余的,突出了这些表示对信道失真、低信噪比和具有声学挑战性的现实场景的鲁棒性,与Mel-filterbank-DNN基线相比,相对改善了11%到56%。为了解释结果,提出了一种来自DNN激活的音素类之间相似性的测量方法,并将其与声学特性联系起来。我们发现这种测量方法与观察到的错误率一致,并突出了音素水平上的特定差异,以确定所提议的特征的好处。
尽管有上述所有的进步,ASR的性能仍然远远落后于人类的对应物,特别是在嘈杂和混响的环境中,因此阻碍了ASR技术的进一步发展,无论它们是多么吸引人或必要。为了弥补这一差距,研究人员专注于两种不同但并非相互排斥的策略:开发更好的后端和提取更有信息的可识别特征。有关在ASR研究中成功实施的噪声稳健技术的全面概述,请参阅(Li et all,2014)。
关于dnn,实现前一个目标的一个方法相对简单,它涉及降低误差和泛化之间的权衡(很像许多其他机器学习算法),并取决于系统在交叉验证集上的表现。一方面,如果目的是最小化损失函数,则行动的过程是增加模型的复杂性,即通过增加额外的层来增加参数的数量或每层神经元的数量或网络的深度。
另一方面,如果交叉验证集的损失函数增加(这种情况称为过拟合),则需要更多的训练示例。在某些情况下,可用数据的数量是有限的,尽管计算软件和硬件有了巨大的进步,但在深度架构上,训练时间不能很好地扩展;在这些情况下,第二个目标似乎更容易实现。因为健康人的耳朵还是无法比拟的其鲁棒性(Lippmann, 1997), (Scharenborg, 2007), (Meyer and Kollmeier, 2010),模仿其原理改进了现有的ASR特征提取方法;反过来,更好的表征可能会导致人们对人类听觉处理的基本原理有更广泛的理解。
以前,听觉系统启发的特征提取技术的使用已经证明了语音识别性能的提高。即使是最广泛使用的梅尔频率倒谱系数(MFCC)或语音感知线性预测(PLP)分析产生的特征(Her mansky, 1990),本质上也实现了生物学发现。由于声门源的存在,低频的能量更大,因此有一个预强调级来均衡信号功率;这两个特征都使用了来自心理声学测量的不同频率扭曲量表(MFCC的Mel量表和PLP的Bark量表)。非线性函数应用于振幅压缩,模拟听觉系统的响度感知(分别为MFCC的对数和PLP特征的强度-响度幂律)。此外,在PLP中,更详细地模拟了有关频率选择性和等响度的不对称的听力特性,从而得到比MFCC中使用的log-Mel更接近听觉的谱图。
为了提高识别器对信道失真和其他卷积噪声源的鲁棒性,MFCC和PLP特征通过处理机制进行了扩展,如反向平均归一化和RASTA处理(Hermansky和Morgan, 1994),后者包括带通滤波压缩谱振幅以强调过渡,模仿听觉外围倾向于关注声音输入的相对值。
相反,时间模式(TRAPS)和隐藏激活陷阱(HATS) (Hermansky和Morgan, 1994)特征捕捉了特定光谱能带的时间演变,以检测潜在的语音类结构,与光谱分析(10毫秒)相比,通常需要较长的段(1秒)。基于TRAPS和HATS发展的假设表明,人类听觉系统感知的频谱信息不是作为分类器,而是作为目标信号最主要区域的频率子带选择器,因此对这些波段的时间分析是如何在皮层中解码话语的。
Kim和Stern(2009)提出了一种计算功率归一化倒谱系数(PNCC)的算法,作为传统MFCC的替代方案。PNCC的计算集成了一个伽玛通滤波器组,以更好地近似基底膜的位置-频率映射(Patterson et all, 1992),而不是来自MFCC的三角形滤波器,它还用听觉神经放电的生理观察得出的幂函数取代了它们的对数非线性,以适应输入声级的动态依赖性和用于压缩伽玛通滤波器组输出的感知响亮度;此外,基于算术和几何功率均值的比值,PNCC能够滤除一些背景噪声。Stern和Morgan对基于听觉的特征提取方法进行了更广泛的概述(2012).
进一步的生理学和心理声学研究(Qiu et all, 2003) (Mesgarani et all, 2007)表明,哺乳动物的初级听觉皮层A1中存在神经元,它们专门针对特定的时间或频谱调制进行调谐,在某些情况下表现出对角敏感模式(例如语音中的元音瞬变)。频谱-时间感受场(STRFs)是对刺激的时频表示的估计模式,这些刺激最优地驱动一个神经元(或一组神经元)。为了模拟这种模式,二维Gabor滤波器因此被开发出来,以模拟在strf中观察到的模式(Qiu et all, 2003),这是由于A1中显式编码的局部光谱时间模式。Kleinschmidt和Gelbart(2002)调查了一组心理声学参数化滤波器是否可以提取出有意义的信息,用于健壮的ASR。
在为ASR设计滤波器时,一个挑战是确定一组合适的参数,以产生能够处理环境噪声、低信噪比、混响甚至信道失真的强大特征集。Schädler et all(2011)提出了一种基于特定生理动机的时间和频谱调制频率的Gabor滤波器组,与ASR的MFCC基线相比,其单词错误率(WER)相对提高了30-45% (Meyer let all, 2012),说话人识别提高了21% (Lei et all, 2012)
在类似的研究中,使用了大量Gabor滤波器来覆盖广泛的调制频率,并将其解析为大量神经网络的输入,以合并特征流(Zhao和Morgan, 2008)。Ezzat et all(2007)基于二维离散余弦变换提取谱时信息,对谱图的时频斑块进行变换。此前,我们探索了在Aurora 4任务中,将Gabor滤波器安排在滤波器组中作为DNN-HMM后端输入的适用性,结果比标准化滤波器组的特征相对提高了近20%,比MFCC结果相对提高了60% (Castro Martinez et all, 2014)。
与此同时,Chang和Morgan(2014)使用不同的卷积神经网络初始化不同的Gabor滤波器,在相同的任务和重新噪声版本的华尔街日报上获得了富有成效的结果。随后,Baby和van Hamme(2015)提出了另一种基于听觉的特征提取方法,该方法包括从低通滤波的一半整流信号计算出的低频调幅谱图;加上DNN-HMM后端,获得了与我们对Aurora4非常相似的WERs和TIMIT语料库上19.6%的电话错误率。
这些研究支持将基于听觉的特征与深度学习架构相结合的想法,以获得两者的最佳效果,然而,这种结合背后的原因仍然未知。我们相信这些表示的好处来自于这些表示为深度学习解码器提供了更可识别的语音识别任务线索。本文的目的是通过降低三个不同识别任务(Aurora 4, CHiME 2和CHiME 3)的基线单词错误率(WER)来验证这一假设,并评估Gabor滤波器编码的特征的可鉴别性。我们追求后一个目标,通过特征空间中可分离性的鲁棒度量分析从DNN获得的激活的指示度量是类之间的相似性;即映射到相同音素的集群上下文依赖的三声子HMM状态。
本文其余部分的结构如下:我们详细描述了Gabor滤波器组,以及基线特征、深度神经网络的设置和方法部分中用于分析的标准。结果将在下一节中展示,然后是一个简要的讨论,描述结果和论文的结论。
Schädler et all(2011)
Spectro-temporal modulation subspace-spanning filter bank features for robust automatic speech recognition.
Meyer let all, 2012
Hooking up spectrotemporal filters with auditory-inspired representations for robust automatic speech recognition.
Lei et all, 2012
Spectro-Temporal Features for Speaker Recognition.
Zhao和Morgan, 2008
Multi-stream spectro-temporal features for robust speech recognition.
Ezzat et all(2007)
Spectro-temporal analysis of speech using 2-d gabor filters.
Castro Martinez et all, 2014
Should deep neural nets have ears? the role of auditory features in deep learning approaches.
Chang和Morgan(2014)
Robust cnn-based speech recognition with gabor filter kernels.
2014,
正如广泛显示的那样,语音识别的声学特征可以从具有多个隐藏层的神经网络中学习。然而,学习到的转换可能不能充分泛化到与训练数据有显著不匹配的测试集。另一方面,Gabor特征是由用于模拟人类听觉处理的频谱时间滤波器生成的。在之前的工作中,这些特征被用作神经网络的输入,这提高了存在噪声时语音识别的单词准确性。在这里,我们提出了一种称为Gabor卷积神经网络(GCNN)的神经网络架构,它将Gabor函数合并到卷积滤波器内核中。在该体系结构中,多种Gabor特征作为卷积层的多特征映射。通过反向传播训练进一步调整滤波器系数。实验使用了《华尔街日报》语料库的两个噪声版本:Aurora 4和RATS重新噪声《华尔街日报》。在这两种情况下,所提出的架构比我们尝试过的其他噪声鲁棒特征表现得更好,即ETSI-AFE, PNCC,没有基于cnn的方法的Gabor特征,以及不包含Gabor函数的神经网络特征。
神经网络已经成功地用于基于hmm的语音识别超过20年。在该方法中,网络输出被用作后验来推导隐马尔可夫模型(hmm)的发射概率。后来,许多研究人员利用网络输出作为HMM观测(串联)[2][3]的特征。这两种方法都被用于最近的“深度”学习方法中,这些方法被设计为有效地融合更多层次,特别是已成功应用于自动语音识别(ASR)[4][5][6]。
在典型的系统中,倒谱系数或短期谱被生成为(深度)神经网络或卷积神经网络(CNN)[7][8][9]的输入。虽然训练过的特征可以有效地降低匹配测试集上的WER,但它们可能是专门化的。与倒谱系数或谱不同,Gabor处理在神经网络训练之前基于听觉模型的先验知识生成大量特征。此前,Gabor特征已经证明了可观的噪声鲁棒性[10][11],为大多数现有的鲁棒性方法提供了不同的解决方案,这些方法侧重于补偿模型[12][13]或特征[14][15][16]中干净语音和噪声语音的差异。在本文中,我们提出了一种神经网络架构,称为Gabor卷积神经网络,将二维Gabor滤波过程融入到典型卷积神经网络的滤波核中。
Gabor函数已经成功地作为时域光谱模式的近似值,被称为时域光谱接受场,STRFs[17]。这些方法定义了一系列光谱、时间和光谱时间调制滤波器,可以被视为大致模拟特定光谱时间信号组件的神经放电模式。除了任何生物学解释之外,它们还提供了时间频率平面的广泛转换。特别是,纯粹的时间特征,如TRAPS[18]和HATS[19],可以被视为光谱时间特征的特例。最近,Gabor滤波器已被用作深度神经网络(DNN)的输入,以生成Gabor-DNN特征,以改善语音识别[20][21]。
在这里,我们报告了集成预定义的Gabor滤波器和训练有素的卷积神经网络来生成一个更健壮的特征,称为GCNN。典型的CNN架构使用共享权重来过滤接受域,建模频谱的局部特征。这个过滤过程允许我们将2D Gabor滤波器集成到CNN拓扑中。我们对CNN的接受野进行了修改,采用了几个符合Gabor滤波特征的时间和频率支持。改进后的CNN将Gabor滤波器系数作为最低层的初始滤波器,并通过反向传播训练进行微调以优化系数。在实验中,提出的GCNN特征比Gabor- dnn和CNN特征表现得更好,前者保持Gabor系数未训练,而后者使用训练过的滤波器而没有Gabor建模。此外,池化算法有效地降低了含噪语音识别的错误率。
Proposed Method
Power-Normalized Spectrum
Gabor滤波器或cnn滤波器都实现了局部频率特征滤波器,因此采用短期功率谱的某个函数作为输入。尽管在许多实验中已经成功地使用了梅尔谱,但在噪声的存在下,它很容易被破坏。在本文中,使用基于PNCC的特征生成算法,从一种更健壮的谱-时域表示中生成特征,称为功率归一化谱(PNS)[16]。与梅尔频谱不同,短期频谱是使用等效矩形带宽(ERB)尺度上等距的伽玛通听觉滤波器集成的。其次,减去中频功率偏置,其中偏置电平的计算基于中频功率的算术平均值和几何平均值(AM/GM比)之比,这是由于AM/GM比[16]降低噪声功率所致。最后,一个指数为0.1的幂非线性取代了mel cepstra中用于压缩的对数非线性。
Gabor features
这里我们描述了我们的Gabor滤波器设计和相应的Gabor特性。Gabor滤波器在更宽的时间间隔内捕获频谱和时间信息的局部区域。我们将Gabor滤波器实现为复正弦信号和汉宁包络的乘积。复正弦信号(时调制频率ωn,谱调制频率ωk)表示为:
时间窗口Wn,与时间调制频率ωn成反比;类似地,频谱窗口Wk与频谱调制频率ωk成反比。
载波函数的周期性由弧度频率ωn和ωk定义,这允许Gabor函数被调谐到频谱调制的特定方向。
这里使用的Gabor滤波器组改编自[20],由59个不同的特性组成。
使用可能组合的子集来避免特征组件的高相关性,从而得到814维的特征。窄滤波器捕获快速时变的频谱部分,而宽滤波器捕获语音动态的粗表示,如图1所示。类似地,不同频谱调制频率对应的各种“高”和“短”滤波器生成捕获不同频谱动态的特征。
在本文报道的实验中,通过卷积功率归一化谱和Gabor滤波器获得Gabor特征。之前,我们利用Gabor特征作为DNN的输入。该方案在训练神经网络参数的同时,固定Gabor滤波系数。
Convolutional Neural Network
与Gabor滤波器不同,卷积神经网络中的局部滤波器通常使用监督训练设计。LeCun et.[22]提出了一种通用的CNN拓扑结构,并在计算机视觉中得到了广泛的应用。最近,研究人员将cnn应用于语音识别。典型的卷积神经网络由卷积层、子采样层和全连接层组成,如图所示
图2。每个CNN训练用例由连续帧的整个频段组成。在卷积层中,每个神经元的感受域连接到频带的局部子集。一组接受域频率移位的神经元共享相同的内核(权重)。这些神经元堆叠在一起,沿着整个频带覆盖内核的特征,构成了一个特征图。通常,卷积层由不同内核确定的多个特征映射组成,如图2所示。每个神经元的激活是通过将局部感受野与权重相乘来计算的,并加上一个偏差和应用非线性函数:
其中hm(n,k)表示\(m^{th}\)特征图神经元,其接受野为2K+1(波段),由2N+1(帧)矩阵以帧当前波段x(n,k)为中心。连接权重Wm对感受场进行过滤,其中过滤器系数的指标从权重指标翻转,垂直和水平,如Eq. 3所示。Bm和\(\theta(.)\)分别为偏置项和sigmoid函数。
在常见的CNN拓扑中,在卷积层之后有一个池化层执行下采样。通常,池化从卷积层的激活窗口中获取最大值,其中窗口大小称为池化大小。例如,图2中的池化大小为2。max-pooling层可以有效地减小卷积层的大小,并去除卷积带上的方差。然后在池化层之后添加一个完全连接的网络,以集成池化的特性。
Convolutional Neural Network using Gabor filter
为了在cnn中模拟Gabor滤波,我们对公式3做了两个修改。首先,我们用线性激活代替了s型激活。偏差项被强制为零。在这种情况下,卷积层的神经元就是感受野的滤波输出。其次,Gabor特征由具有几种不同时间和频带支持的滤波器组成。为了满足滤波器的设计,我们修改了接收场的大小,以提供与Gabor滤波器相同的支持。而不是使用固定的接受域大小。
然后将Gabor滤波器系数合并到Eq.(1)中的初始权重Wm中。初始特征映射为Gabor特征。修改后的拓扑结构如图3所示。与Gabor-DNN特征不同,滤波器系数不再未经训练。与典型的CNN相比,我们使用了Gabor滤波器特征,定义具有多个时间和频率分辨率的线性激活特征映射,以初始化反向传播训练,并潜在地避免对训练数据的过度拟合。最大池化层跟随卷积层向下采样并平滑Gabor特征。
Experimental Setup
使用两个噪声版本的WSJ来评估所提出的方法:(1)Aurora 4[23]和(2)RATS“重新噪声的华尔街日报(WSJ)语音”。Aurora 4数据集提供了一个干净的训练集和一个多条件训练集。干净的训练集取自WSJO SI-84数据集(83个扬声器)的7138个话语,其中数据使用森海塞尔麦克风记录。多条件训练集包含与干净训练集相同数量的话语,而一半的话语是由次要麦克风记录的。六种信噪比在10dB到20 dB之间的噪音类型(汽车、嘈杂声、餐馆、街道、机场和火车)被随机添加到两种麦克风类型的四分之三的声音中。该评价集基于1992年11月5k评价集(8个扬声器)的166个语音,由14个子集组成:干净集和6个噪声损坏集,用于两种麦克风类型记录的数据。噪声类型与用于多条件训练集的噪声类型相同,但选择的信噪比在5到15 dB之间。这14个子集被分为4个集合:干净的,有噪声的,干净的带有麦克风失真的,有噪声的带有麦克风失真的,分别被称为A, B, C和D。
对于“RATS重新噪声化华尔街日报”,我们从WSJ1数据集(284名发言者)和WSJ-eval94数据集(20名发言者)开始进行训练和测试。使用“雷诺器”工具[24]将退化录音中估计的附加噪声和信道噪声应用于训练和测试数据集。该系统设计用于DARPA RATS项目,分析来自RATS重播示例信号(在本例中为LDC2011E20)的数据,以估计包括信噪比和频移在内的噪声特性;原始数据在[25]中描述,由各种连续的语音源组成,这些语音源通过8个不同的无线电信道传输和接收,导致显著的信号退化。8种无线电信道特性如表1所示。我们将相同的噪声特征应用于WSJ数据,以生成“RATS重新噪声化WSJ”。在本例中,训练数据来自于WSJ1数据集51.2小时的干净通道和通道G(信噪比最高的通道)。每个通道的WSJ-eval94测试数据为0.8小时。这里报告的结果是wer的平均值
对于Aurora 4和RATS重新噪声的WSJ,声学模型使用了估计最大值的交叉字三声子可能性。所得到的三声子态聚为2500个束缚态,每个束缚态由高斯混合模型的16个分量建模。我们使用了CMU发音词典的0.6版本和林肯实验室为1992年的评估创建的标准5k bigram语言模型。除非另有说明,对特征进行均值归一化,而声道长度归一化(VTLN)和最大似然线性等适应技术回归(MLLR)未用于这些测试。
全连接深度神经网络采用6层瓶颈结构进行训练,瓶颈(25个单元)位于第五隐含层。输出层由41个上下文无关的语音目标组成。使用39 d倒谱系数或814 d Gabor特征作为9个连续帧的全连接深度神经网络的输入。采用限制性玻尔兹曼机(RBM)预训练[26]对神经网络参数进行初始化。对于预训练后的反向传播,我们从0.008的学习率开始,并将学习率降低了两倍,一旦交叉验证表明每个学习率的进展有限,就会继续下去,直到交叉验证显示基本上没有进一步的进展。
对于CNN拓扑结构,我们对卷积层使用了120个滤波器。滤波器大小为9个频带,15个连续帧。我们使用了6个卷积带的池化大小,步幅为2(重叠为4),这将维数降低了1 / 2。这一层被馈送到一个5层全连接瓶颈结构。在GCNN架构中,每个滤波器内核的时间支持范围为7到99帧,频率支持范围为7到40个波段。其中59个滤波器初始化为Gabor滤波器系数,其余61个滤波器随机初始化。其余的网络设置与CNN相同。对于CNN和GCNN架构,均采用40d功率归一化谱作为输入。我们没有使用delta和加速度系数来与Gabor滤波器输入保持一致。反向传播策略与DNN相同,但未进行预训练。为了便于比较,通过控制隐藏层大小,将神经网络的自由参数数量限制在3.5M左右。
将mfcc与全连接深度神经网络或卷积神经网络训练的特征进行连接,得到64维特征向量。此外,在HMM训练和测试这里描述的所有特征之前,对每个话语的均值和方差进行归一化。
Results and Discussion
我们首先展示了使用干净训练集的RATS重新使用WSJ和Aurora 4结果的一系列基线结果。
在表2中,PNCC在两种情况下(平均而言)都优于其他特征基线。因此,我们在接下来的实验中使用了基于PNCC或PN谱的特征。
在表3中,我们使用全连接神经网络或卷积神经网络比较了一系列训练过的特征。首先,表3经过训练的特征优于表2未经训练的特征。在表3中,除了clean集(A)外,Gabor-DNN优于PNCC-DNN。接下来,我们将Gabor-DNN与PNS-CNN和未池化层的PNS-GCNN进行比较。在没有池化的情况下,全连通网络的输入是卷积层的特征图。因此,这些行可以作为不同光谱时间滤波器组之间的比较。Gabor-DNN使用可变大小的过滤器,但完全手工制作。而PNS-CNN学习的滤波器大小是固定的,训练的数据是有限的。PNS-GCNN具有可变大小的滤波器。此外,使用手工过滤器初始化训练过的过滤器。在表3中,PNS-GCNN优于其他两个特征,但差异不大。表中可见的较大效果显示了池化的效果,以及池化和使用GCNN而不是CNN的累积效果。特别是,最大池化为RATS WSJ和Aurora 4提供了显著的改进(特别是对于噪声集(B)和带有信道失真的噪声集(D)),特别是池化,使用Gabor滤波器帮助设计CNN具有一个了良好的效果。
训练好的CNN滤波器由几个垂直(光谱)和水平(时间)滤波器组成,如图4中的例子所示。然而,滤波器与对角Gabor滤波器的相关性非常低,如图中的对角滤波器。图5(左),而对角滤波器将在GCNN拓扑中保持和调优,最终滤波器如图5(右)所示。因此,对角滤波是区分Gabor初始化训练滤波器和随机初始化训练滤波器的另一个因素。
除了错配训练和测试的实验外,我们还使用了Aurora 4的多条件训练集。我们选择了Gabor-DNN、PNS-CNN和PNS-GCNN三个特征,并与ETSI-AFE和PNCC两个基线进行了比较。结果如表4所示,其中提出的PNS-GCNN可实现16.6%的WER。这是在没有VTLN、MLLR或其他建模增强的情况下实现的。
Conclusion
在本文中,我们提出了一种集成Gabor滤波器设计的鲁棒CNN架构。提出的GCNN架构通过Gabor滤波器初始化学习具有多个时间和光谱分辨率的局部特征,包括结构和初始权值。通过反向传播训练进一步优化滤波器系数。实验结果表明,对于两种噪声的WSJ语料库,所提出的GCNN特征在其他噪声鲁棒特征和神经网络特征中取得了最好的结果。
Gabor-DNN特征
2019,
摘要现有的自动语音识别系统利用语音的频谱或时间特征。与人类对听觉的感知相比,这种系统的性能仍然很差,尤其是在嘈杂的环境中。本文主要研究基于生理和心理声学启发的频谱特征提取方法。在这里,二维Gabor滤波器用于估计从时频表示的语音信号的频谱时间特征。Gabor滤波器是利用常数Q因子的概念设计的。发现人类知觉系统沿其滤波器组链的频率响应保持近似恒定的Q。常数Q分析确保Gabor滤波器占用一组几何间隔的光谱和时间箱。语音信号的时频表示是基于Gabor的特征提取方法的关键组成部分。时频映射采用伽玛图代替传统的谱图表示。利用AURORA2噪声数字数据库对所提特征集的ASR系统性能进行了实验验证。接受廉洁训练;与Mel频率倒谱系数(MFCC)特征相比,所提出的特征在单词错误率(WER)方面相对提高了约50%。与现有的谱时特征提取方法相比,该方法的WER值也相对提高了23%。进一步分析了从NOISEX-92数据库中提取的噪声样本对TIMIT的破坏。实验验证了所提特征在建立ASR系统稳健声学模型时的鲁棒性。
鉴于光谱线索和时间线索各自的优势,利用光谱特征来获得更好的结果是合理的。由于语调、共同发音和时间依赖性,语音表现出这种频谱-时间行为(Depireux et al . 2001)。例如,共振峰跃迁产生于语音声谱图表示中的对角线变化。水平斑块中浊音对应的语音谐波更明显。垂直语音现象反映了复杂的噪声模式、爆破边和摩擦。当获得全局和局部频谱时间线索时,语音特征得到最佳提取(Ganapathy和Omar 2014;Gautam和Singh 2017)。生物学研究也揭示了哺乳动物的初级听觉皮层中存在神经元(Qiu et al . 2003;Mesgarani et al 2007)。这些神经元被专门调整到时间-频率表示的局部频谱-时间模式。二维Gabor滤波器被开发来模拟这种模式,因为它们的局部光谱时间斑块(Kleinschmidt和Gelbart 2002;Dorfler2001)。先前的研究表明,通过使用Gabor滤波器从输入pante中提取特定的光谱时间信息,可以使ASR系统更加健壮。Gabor滤波器首次应用于ASR域特征提取是由Kleinschmidt(2003)提出的。
Gabor滤波器首次应用于ASR域特征提取是由Kleinschmidt(2003)提出的。Gabor滤波器最终在嘈杂的环境中得到了更多的重视。例如,Mesgarani et al(2006)的作者使用Gabor滤波器对不同噪声环境下的非语音帧中的语音片段进行分类。在Meyer和Kollmeier(2011)中,作者使用了一种称为特征查找神经网络的自动特征选择方法来创建一组Gabor滤波器。类似地,Schädler等人(2012)提出了专门为ASR应用调整的频谱和时间调制频率。他们的结果显示,在MFCC等最先进特征的基线状态上有了相当大的改进。神经网络还用于合并来自不同Gabor流的输出以及降维技术(Mesgarani等2010;赵等,2009)。Kovács等人的作者(2015)建议使用简单启发式的手动过滤器集,而不是自动Gabor过滤器集参数化。单独的一维Gabor滤波器用于提取光谱和时间信息,在Schädler和Kollmeier(2015)中给出,并显示出比二维Gabor滤波器组的改进。最近,Martinez等人(2014,2017)将Gabor滤波器的使用扩展到使用受限玻尔兹曼机的神经网络设置中。近十年来人们对这些研究工作的极大兴趣表明了光谱时间特征在ASR领域的重要性。
近年来,混合ASR系统采用了深度神经网络(DNN)隐马尔可夫模型(HMM)的主流建模ASR系统的声学成分(Hinton等2012年;Mohamed等人2011年;Amrouche等人2009;帕特尔等人2018)。DNN具有先进的学习能力,可以学习模式的更深层次特征,并创建不同的可分离类。如果给分类器提供足够多的可鉴别的最优特征,DNN可以最好地工作(Martinez et al2014)。学习这些声学特征将成为网络训练的一部分。在这项工作中,光谱时间特征用于基于DNN的分类器,以建立ASR系统的混合声学模型。
Gabor滤波器调谐到包含在信号的光谱时间表示中的特定信息。因此,对于最佳的Gabor特征提取,需要适当的谱时(时频)表示。采用二维Gabor滤波器提取光谱时间特征的最先进方法使用Mel谱图(Martinez等人2014年;Kleinschmidt和Gelbart 2002;2015年害虫和komeier梅尔和科林埃尔2011年。然而,基于三角形梅尔滤波器的梅尔光谱不适合噪声环境,因为它在不利条件下很容易被破坏(Valero和Alias 2012)。同样,在Gabor滤波器的设计中,主要挑战在于选择适合ASR任务的最优参数集。用二维Gabor滤波器提取的光谱时间特征,使用基于Schädler等人(2012)滤波器组方法的二维滤波器组(Spille et al 2017;Martinez等人2017;schroder等人2015;马丁内斯等2014)。设计中考虑的主要参数有滤波器组中的滤波器数量、谱时中心调制频率、谱时调制带宽以及滤波器组中连续滤波器之间的间隔。
Schädler等人(2012)在滤波器组中构造了二维Gabor滤波器的参数,目的是均匀覆盖调制转移域中的光谱调制频率。他们设计中的控制参数包括滤波器使用的周期数v和决定相邻滤波器之间重叠程度的距离因子d。本工作的目的是研究是否仅使用一个可调参数就可以实现类似的滤波器组设计,并具有更好的谱时响应。在这种程度上,Gabor滤波器组的设计中使用了常数Q分析,将控制参数的数量减少到每倍频(B)只有一个箱。预计由于常数Q因子导致相应滤波器之间的间距导致中心调制频率几何间隔的连续滤波器之间的相关性降低。对于信号的时频表示,采用了基于等效矩形带宽(ERB)频率尺度的生理激励伽马马通滤波器。这些听觉激励滤波器在不利的噪声条件下具有较好的鲁棒性,因为它们可以解释空间频率内耳基底膜图。采用二维Gabor滤波器,分两阶段获得了光谱时间特征。在第一阶段中,通过对语音语音的短时傅里叶变换(STFT)系数应用听觉启发的伽玛通滤波器来利用频谱时间表示。这就产生了一种称为伽马谱图或伽马谱图的谱-时间表示。利用常数Q因子的概念设计了二维Gabor滤波器来表征语音信号的频谱特性。第二阶段在Gammatonegram上应用Gabor滤波器组提取基于Gabor的特征。研究了该特征集在不同噪声环境下对混合ASR系统声学建模的影响。本文的其余部分分为以下几节:第2节讨论了使用伽玛onegram的频谱时间表示,第3节重点介绍了所提出的Gabor滤波器设计,第4节概述了频谱时间特征的提取,第5节简要讨论了混合ASR系统的声学建模,第6节提供了实验结果,突出了Gabor特征在声学建模和本文中的意义在第7节中总结了未来的研究范围。
在这项工作中,提出了基于听觉特征的ASR系统的声学建模。在混合DNN-HMM ASR系统的框架内,使用基于Gabor特征的伽玛图函数建立了声学模型。本文讨论了用于特征提取的Gabor滤波器的设计和DNN的建立。一个生理动机伽玛图被用来获得时频表示,而不是传统的表示。在这里,实验表明,与Mel谱图相比,Gammatonegram可以有效地表示嵌入语音中的瞬态变化。从设计角度出发,利用常数Q因子的概念构造二维Gabor滤波器组。Gabor滤波器对具有独特特征的语音特征起到匹配滤波器的作用。AURORA2和TIMIT数据库用于验证ASR系统在噪声环境下的性能。实验分析证明了基于伽玛图的Gabor滤波器提取特征对建立ASR系统稳健声学模型的有效性。在未来,ASR系统的性能可以通过与其他听觉激励功能的连接进一步提高。
Kleinschmidt(2003)
Localized spectro-temporal features for automatic speech recognition.
Mesgarani et al(2006)
Discrimination of speech from nonspeech based on multiscale spectro-temporal modulations.
Meyer和Kollmeier(2011)
Robustness of spectro-temporal features against intrinsic and extrinsic variations in automatic speech recognition.
Schädler等人(2012)
Spectro-temporal modulation subspace-spanning filter bank features for robust automatic speech recognition.
Martinez等人2014年;
Should deep neural nets have ears? The role of auditory features in deep learning approaches.
Kleinschmidt和Gelbart 2002;
Improving word accuracy with Gabor feature extraction.
Schädler, M. R., & Kollmeier, B. (2015)
Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition.
Meyer, B. T., & Kollmeier, B. (2011)
Robustness of spectro-temporal features against intrinsic and extrinsic variations in automatic speech recognition.
Spille et al 2017;
Combining binaural and cortical features for robust speech recognition.
Martinez等人2017;
On the relevance of auditory-based Gabor features for deep learning in robust speech recognition.
schroder等人2015;
Spectro-temporal Gabor filterbank features for acoustic event detection.
Mesgarani等2010;
A multistream multiresolution framework for phoneme recognition.
赵等,2009
Multi-stream to manystream: Using spectro-temporal features for ASR.
Kovács等人的作者(2015)
Selection and enhancement of Gabor filters for automatic speech recognition.