基于注意力机制的语音识别

研究背景

在表达不同的情绪的语音,在人耳能感到的特征方面,有明显的区别 (如下图)
在这里插入图片描述

语音情绪识别的工具

  • 传统的机器学习
  • 深度学习

其中深度学习常见的是 卷积神经网络 和 循环神经网络, 前者适合应用于空间分布数据,后者更多的适合应用于时间性的分布数据。

由于情感的标签本身就具有一定的主观性,所以一般实验使用国际上广泛认证的两个最常用的数据集,都是由专业演员进行演绎,并有情感专家鉴别生成的数据集。


研究现状

语音情绪识主要有两个步骤组成: 特征提取 和 分类


特征提取方面

人们从语音中发现了并提取了一组与情绪状态密切相关的特征,作者使用短时窗口滑动的方式,提取了一组 6373 个特征的特征集。后来 Eyben 等人提出了一个更加简洁而有效的数据集(GeMAPS),这个数据集由 62 个特征组成。

分类器方面

语音情绪识别借鉴于在语音识别中,广泛应用的隐马尔科夫模型(HMM)去拟合情感状态进行分类。


语音情绪识别,主要是在两个方向上进行发展,一是自身结构的发展,主要表现为层次结构的加深改良,比如多任务模型,或者多个神经网络模型进行组合,二是输入的情感特征的提取,提取出更有情感代表性的低纬度特征。

本课题是以某一个人的所有语音作为测试集,而剩下的其他人的语音作为训练集进行实验,这样的方法能够更加准确的验证,并且此特征与说话的人无关。
实验中提取到的初级特征是13维的梅尔倒谱系数(Mel Frequency Cepstral Coefficent)(MFCC)特征,梅尔倒谱系数是一种在语音的各个识别领域都得到广泛使用的成熟的短时功率谱特征,能够描述发声声道包络。(对于各种参考文献概念的理解,参考下边的参考文献)


本课题重点研究的内容,是注意力机制与 LSTM 结合,在语音情感识别上的应用,以及当数据集较少的时候,通过 multi-style 的方式增加数据集,从而提高识别的准确率。

LSTM 是长短时记忆网络,是一种时间递归神经网络

传统的 LSTM 进行特征识别,是将特征输入 LSTM 层后 ,连接softmax 层实现输出,并且取 LSTM 的最后一个节点的输出序列作为表达该语言的 embedding,本文的创新点是将 self-attention 机制与 LSTM 相结合,将LSTM 每个节点的输出都记录下来,作为 self-attention 的输入,通过使用自注意力机制,我们能给每一帧的特征乘以一个权重,从而提高算法的性能。

多头注意力机制与 LSTM 相结合,多头注意力机制是将每个输入都经过一个线性变换,然后再输入到attention层内,相当于做了h次现象变换,就能得到h种不同的输入组合形式,和原本的 attention 只进行一次线性变换相比,多头进行了 h 次线性变换,这样做的好处是可以允许模型在不同的子空间里学习到相关的信息。

参考文献

各种信号概念的理解

posted @ 2020-08-26 16:26  沧海一声笑rush  阅读(383)  评论(0编辑  收藏  举报