[pdf]https://files.cnblogs.com/leivo/20080826.pdf

 Abstract

通过声音和面部表情进行情感推理。

声音:韵律参数(pitch signalenergy and their derivative 训练方法:HMM

面部表情:特征参数(来自红外热图和可见光图像) 训练方法:NN

识别结果表明:使用两者方法结合的情感识别结果要比单独使用某一方法的识别率要高

最后同识别结果同调查问卷进行比照

1Introduction

人机交互中情感推理的必要性、应用极其意义。

情感推理的几个阶段 1、设计能够整合人类情绪表达信息(可见光图像、红外热图、音调、音频等)的方法。当前研究的主要内容还处于第一阶段。由此给机器人提供了一种人脑所不能处理的信息,其中红外热图是一个很好的例子,因为人眼不能觉察到人体的热量分布;2、研究一种可以处理融合信息的全自动的、实时的交互式系统;3、研究可以具有第一和第二阶段功能的机器人,并将其应用于日常生活中。

 

研究内容:检测情感和人的精神状态(第一阶段)

可视化人脸表情图像在情感识别中的重要性和缺陷(光照、机器识别水平有限)

è基于红外图像的表情识别

 

最近研究者已经研究了一些通过使用非言语特征(如:讲话、面部表情、肢体动作等所包含的情感因素)进行情感推理的方法,因此è如何尽量多地整合这些表情信息进行情感推理?

 

本文介绍了通过整合人类语音、可见光图像和红外图像进行情感类别分析的方法。其中重点强调了红外热图在该方法中的作用。

 

2、人类皮肤红外图像特征:

热图的生成主要根据Stefan-Boltzmann定律: ,其中:W为辐射度(radiant emittance ) 为放射率, Stefan-Boltzmann常量 T为温度(K)

对于人类皮肤而言: 大约为0.98-0.99,本文取值为1,这样其他物体的 值都要比人类皮肤的 值要低,另外这样将使得人脸提取更加容易。另外红外人脸图像不受肤色、光照等条件的影响,这也有利于人脸的提取。

 

3、情感特征提取和情感识别

为了识别声音和人脸表情中的情感信息,需要从其中提取情感特征参数

首先分析声音,已知其中包含了四种特征参数,然后从红外和可见光图像中提取有用的特征信息。下图为本文中通过语音、红外和可见光图像进行情感识别的主要流程图。

 

3.1 从语音中提取情感特征

通常用韵律来表示声音情感中的声音特征。本文使用了四类声音参数:基本音调信号(funfamental pitch signalF0)energy以及它们的微分环节(derivative element) 其中声音中的音调信号通过样条插值进行平滑处理。为了进一步考虑说话速度的影响,在进行HMM训练时使用其中的离散持续信息(Discrete Duration Information)。分析如下图所示的声波中的特征参数,仅将语音区域作为数据点。为了在每一个HMM训练中使用单独的特征参数,所有的语音样本通过手工分割被标上音节阶层/Ta//Ro/)。Taro是一个很普通的日本名字,其中不包含任何情感。图四和图五所示:通过一名女性在每类情感中对/Taro/发音中所提取出来的音调信号和能量信号。从中可以看出在anger状态下的特征信号最高。

3.2 从红外和可见光人脸图像中提取情感特征

当前已有很多研究通过由可见光摄像机拍摄的人的面部表情图像来推知人的情感状态。困难:表情变化是图像上的灰度级变化不明显。è尝试通过红外图像中的热量分布进行表情识别。

   在两个时间点拍摄人脸图像,如图三种点线所示,分别在/ta//ro/发音的最高值处。获得人脸图像后需要从中准确的提取人脸。对于可见光图像:通过结合所对应的红外热图中的信息,并使用模拟退火法,对包含人眼的分块区域进行模板匹配。图六和图七所表示的为进行人脸提取所进行的分块(VR中分为三块;IR中分为六块)。然后将平均中性人脸图像和所提取出的最佳人脸区域使用离散预选变换(DCT)产生差值图像。对于IR图像:也是先通过分割进行人脸提取,让后进行DCT变换。

 

3.3 情感识别

为了处理情感语音,对通过实验获得语音样本进行情感语音识别预处理,从中提取出四维情感特征

然后将这些所标注的有三类状态的情感特征通过Discrete Duration Continuous HMMDDCHMM)进行训练,最后进行识别测试。将VR图像中通过DCT系数所产生的特征向量作为基于back propagationBP)方法的NN的输入。同样红外热图中的特征向量也通过上述方法产生并通过另一个NN处理。为了处理面部图像,分别将VRIR48-7822-57位的特征参数作为三层NN的输入数据。

为了融合VRIR图像中的信息,情绪状态 i 加权总和 为: ,其中 为方法j的可靠性(reliability), 为第i个单元的输出强度(Output Intensity)[在NN的输出层中,所对应的方法j的情绪状态为i],每种方法进行数据学习后的精确性可以用NN中每种方法的可靠性的值来决定。方法中使用的可靠性的值即为上述加权总和中的权值,因此可以选取 最大时候的权值作为识别结果。

为了融合声音、VRIR中的信息,情绪状态 i 加权总和 为: ,其中 为每种情感状态i使用方法j后的输出值(01)。同样,识别结果在 取最大值时获取。

 

4、实验及结论

首先同时获取VRIR图像,分为四种情感状态:NeutralHappinessSadnessSurprise,来自两名男性志愿者。将每位志愿者在每种表情下的10个样本作为训练数据,5个样本作为测试数据。

在分别使用VRIR图像时,四种情感状态的平均识别率分别为85%75%,而通过VRIR信息融合的平均识别率为95%,显然要优于前面两种。

接下来,对由一名女性发音者发出的包含中性发音(日语:Taro)的语音样本进行分析。在五种情感状态下(NeutralAngryHappinessSadnessSurprise)进行发音,同时记录包含情感信息的语音和图像序列。将每种情绪下的20个样本作为训练数据,10个样本作为测试数据。

[调查问卷测试]对于在图像、语音样本中所包含的情绪信息,首先通过14名男同学和7名女同学进行主观识别,识别结果由表二所示。由表可知:三种方法(V/VR/V+VR)的平均识别率分别为84.0%82.4%92.5%。可见基于两者的情感识别结果要优于单独的两种方法。

 

然后对于以上测试中同样的试验数据,通过融合VVRIR中的情感信息进行识别,识别结果由表三所示。当使用VVRIR时,表情识别率分别为:60%56%48%,在VRIR识别方法中,表情识别错误的原因主要同从图像中所提取人脸的精确性有关。总体识别结果由表3(d)所示,总体识别率为大约为85%No answer除外)。

 

识别结果是针对于个人的,个人的感觉以及情感状态时在两个方面将会影响最终的识别结果,一:提供由许多个体产生的平均特征向量组成的数据库;二:提供由个体特征向量组成的数据库。在第二种方法中再进行人脸识别之前无需了解人的情感和精神状态。由于通过IR进行人脸识别的方法在参考文献[789]中已经说明,包含每个人面部表情特征参数数据库可以从中获得。

 

5、结论

本文提出了一种通过融合声音、VRIR图像中的情感信息进行人的情感状态识别的方法。声音和图像中的情感参数分别使用HMMNN进行训练和识别。识别结果表明:基于融合的表情识别方法要优于任何使用单一信息的识别方法。

Posted on 2008-08-26 17:13  leivo  阅读(703)  评论(0编辑  收藏  举报