Multi-Window Data Augmentation Approach for Speech Emotion Recognition

语音情感识别的多窗口数据增强方法

链接：https://arxiv.org/abs/2010.09895

摘要

提出了一种新颖的多窗口数据增强(MWA-SER)语音情感识别方法。MWA-SER是一种单模态方法；设计语音增强方法来生成额外的数据样本，并建立深度学习模型来识别音频信号的潜在情绪。该方法通过在语音特征提取过程中引入多个窗口大小，从而从语音信号中提取更多的音频特征。实验表明，提出的增强方法结合深度学习模型提高了语音情感识别的性能。

在IEMOCAP语料库上演示了MWA-SER方法的性能，并表明其优于以前的方法，分别显示出65%的正确率和73%的加权平均准确率，6%和9%的提高。文中使用最小数量的特征(34)的模型，比使用900多个特征并具有更高建模复杂性的其他模型性能更好。此外，还用“兴奋”来取代“快乐”的情绪类别，以此来评估模型。该方法实现了最先进的结果，正确率为66%，加权平均精度为68%，分别比SOTA方法提高了11%和14%。

总结

【亮点：训练过程中，采用多窗长提取语音特征，进行数据增强，提升语音情绪识别性能】

特征提取是语音情绪识别（SER）的一大难点，SER分析中常用的语音特征包括MFCC、LPCC等频域特征，以及基频、能量等基于韵律的特征。这些特征的性能会受到FFT长度、滤波器数目、滤波器类型、窗长和帧间重叠长度影响。有研究表明，窗长在语音特征提取中影响极大。

文章聚焦于数据增强，提升深度学习模型在SER任务上的性能。相比于之前工作中特征提取过程选取合适的固定窗长，本文采用多个窗长处理数据，提出MWA-SER（multi-window speech augmentation）方法。结合CNN模型，聚焦两个问题：1）解决固定窗长的问题；2）提供了更多数据用于模型训练。

文中提取了34维特征，包括13维MFCC、13维色度特征和8维时域特征。采用hamming窗。训练时采用数据增强，即特征提取时同时采用三种窗长：200ms, 100ms, 50ms，对应帧间重叠为100ms, 50ms, 25ms。测试时只采用200ms的窗长提取特征。

CNN模型中，采用4个卷积层，2个全连接层，最后是softmax层。4个卷积层的核数目分别为32，64，128，256，FC层的隐藏神经元数目分别为128和32。为缓解过拟合问题，训练过程中，引入dropout层到CNN模型中，以及early stopping。此外，每个卷积层后均采用batch normalization 和最大池化层进行特征下采样。

该方法见下图，multi-window data augmentation method, and CNN model for SER analysis：

未来可研究：窗长变化的影响，帧间重叠长度影响，最优窗长选择，在更多数据集上验证。

posted @ 2020-10-23 16:43 Skye_Zhao 阅读(143) 评论(0) 编辑收藏举报

刷新页面返回顶部

Multi-Window Data Augmentation Approach for Speech Emotion Recognition

摘要

总结

公告