基于深度学习的语音情感识别方法设计

项目背景

大学期间最后一项比较重要的课程设计,智能工程训练的一个选题,因为这门课程是大四上学期的课程,这段时间我有其他各种各样的事情等我去完成,所以这个课程设计就没有选择一个全新的方向,只是选择了一个我自认为比较熟悉的方向(毕竟学习过语音信号处理这门课程)。所以在这种背景下,我选择去完成这一课程设计项目。

项目内容

引子

近年来,随着信息技术的飞速发展,智能设备正在逐渐地融入到人们的日常生活当中,语音作为人机交互的最为便捷的方式之一,得到了广泛的应用。让机器听懂人类语言的同时 ,如何实现与人类有感情的自然交流 ,是无数科研工作者的目标。

目前对于情感的描述主要有两种方法。第一种是基于离散的情感划分,将人类日常生活中广泛使用的基本情感分为愤怒、开心、兴奋、悲伤、厌恶等;另一种是基于连续维度情感划分,主要通过不同的效价度和激活程度来对不同情感进行区分的。

语音情感识别是指通过计算机处理,以帧为单位对情感信号进行特征提取,模拟人类感知并理解人类的情感,进而推断出语音情感类型的一种技术。其任务是从说话人的语音中提取出与情感有关的相关特征,并找出这些特征与人类情感的映射关系,最终对情感进行分类。

语音情感识别的应用范围广泛,如可以结合驾驶员的语音、表情等信息检测其精神状态,提醒驾驶员控制情绪、安全驾驶;依据可穿戴设备采集病人的语音信号实时检测其异常情感状态,提高治疗效率;结合语音情感信息和自动翻译结果来帮助各方发言者顺畅交流等。

原理

经典的语音情感识别模型包含两步:首先手动提取声学特征;然后将这些特征输入到分类模型中完成情感识别。声学特征主要包括了基频(F0)、能量(Energy)、梅尔频率倒谱系数(MFCC)等。这类特征的设计受到了人类感性知识的启发,可以统称为启发式特征。早期的语音情感识别研究都是基于启发式特征展开,其中传统的识别算法包括隐马尔可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量机(Support Vector Machine,SVM)等。此外,还有一些基于决策树(Decision Trees,DT),K近邻(K-Nearest Neighbor,K-NN),K均值(K-means),朴素贝叶斯(Naive Bayes)的方法。近年来,随着深度学习的发展与进步,提出了一些基于深度学习的模型,如深度神经网络(Deep Neural Network,DNN) 、 循 环 神 经 网 络 (Recurrent Neural Network,RNN) 、 长 短 时 记 忆 网 络 (Long-Short Time Memory,LSTM)等。由于人对语音情感识别的认知毕竟是有局限性的,单纯利用人类的知识很难提取到丰富全面的特征,近几年基于振幅时频特征的语音情感识别研究发展迅速,并提出了一些经典模型。例如凭借局部连接和权值共享的优势,卷积神经网络(Convolutional Neural Network,CNN)在语音和图像领域得到广泛应用。目前, 利用 CNN 从振幅时频特征中提取深度声学特征也成为了语音情感识别领域最常用的方法之一。

设计要求

1)查阅语音情感识别相关的资料文献,了解语音情感识别系统设计的基本要求,了解语音情感识别系统的组成部分及各部分的作用。

2)收集一种或多种常见的语音情感识别的数据集,如CASIA语音情感数据集、柏林语音情感数据集等。选择一种数据集,按一定比例将其划分为训练数据与测试数据,用于语音情感识别网络的训练及测试。

3)了解常见的几种用于语音情感识别的声学特征,如美尔倒谱频率(MFCC)、短时能量谱等,选择一种特征进行特征提取,用于语音情感识别网络的训练。

4)了解常用的深度学习网络,如卷积神经网络(CNN)、深度神经网络(DNN)、长短时记忆网络(LSTM)等,选取一种深度学习网络用于语音情感识别。

5)利用训练完成的深度网络进行语音情感识别测试,计算网络的识别准确率,分析网络模型的优点与不足,寻找提升网络识别准确率的方法,对网络模型进行改进。

posted @ 2022-09-01 10:23  TIMON123  阅读(397)  评论(0编辑  收藏  举报