1、A method for detecting transitions of emotional states using a thermal facial image based on a synthesis of facial expressions(1998)
2、Analysis of facial thermal variations in response to emotion - eliciting film clips(2009)
3、Thermal Signatures of Emotional Arousal: A Functional Infrared Imaging Study (2007)(F)
4、An Attempt  of Feeling Analysis by  the Nasal Temperature Change Model (2000)(F)
5、Infrared thermal imaging as a physiological access pathway: a study of the baseline characteristics of  facial skin temperatures (2009)
6、Automated classification and recognition of facial expressions using infrared thermal imaging (2004)
7、Facial Expression Recognition from Near-Infrared Video Sequences  (2008)【无温度信息】
8、Facial Expression Recognition in Nonvisual Imagery (2009)【可作为综述性文章阅读】
9、Facial Expression Recognition Using Thermal Image  (2005)
10、Facial Expression Recognition Using Thermal Image Processing and Neural Network(1997)
11、Automated Facial Expression Classification and Affect Interpretation Using Infrared Measurement of Facial Skin Temperature Variations (2006)
12、Visual learning of texture descriptors for facial expression recognition in thermal imagery(2006)
1、A method for detecting transitions of emotional states using a thermal facial image based on a synthesis of facial expressions
(使用含有综合表情的热红外面部图像检测情绪状态的转换)
面部热变化是由面部肌肉运动、情绪变化及生理变化等因素产生。其中面部肌肉是有意识产生的(理解为面部表情的变化),因此为了消除面部肌肉运动对面部热分布带来的影响,文中通过使用一种Wire-Frame Model 和 纹理映射(Texture Mapping)将一个测试图像和中性表情图像Re-form 成正面中性表情面部图像。然后计算两个reform的面部热差值用于分析面部温度的变化从而检测出情绪状态。文中主要检测两种情绪(pleasure和tiredness)引起的面部三个区域(nose、check and surrounding the mouth)的温度变化。结论:可能 检测出日常生活中情绪变化或生理变化引起的面部温度变化。

引言部分:
引用背景:用于研发一个可以感知人类情感和情绪状态的机器人,并应用于人机交互等领域。该研究共分三个阶段:1、研究一种可以整合人类表情相关信息的方法(可见图像、热图、声音、声调等),文中实现完全的自动、实时、交互是不太可能的,文中主要研究使用热图进行分析,因为情绪变化可能引起面部温度的变化。2、设计一个自动实时交互的可以完成信息融合和处理的系统;3、研发一个可以综合阶段1,2提供的信息的机器人,并用于日常生活。文章重点关注第一阶段。
情感引起的可见表情是当前研究的重点(2000),但其不具有鲁棒性(光照等)并且不能感知人的情绪状态【可见图像很难区分自发表情同人为表情】。因此可以提出基于可以反映面部温度分布的红外热图在多光照条件下进行表情识别的鲁棒方法。(non-violation)
由于要计算测试图像与正面中性表情图像间的温度差异,因此文中仅针对正面图像进行分析,所以本文方法在实际情况下还不适用。
除了情绪变化或生理变化外,面部肌肉运动也会引起面部热分布的变化。为了仅研究情绪转换引起的面部温度变化,应该将面部肌肉运动因素排除,但当前(2000)不具备分离该因素的条件。

图像获取和分析:
设备:主要使用thermal Video System (TVS-3500) (Nippon Avionics) with IR【16 thermal level】,对于文章要求高精度的温度分析时使用hermal Video System (TVS-8100) (Nippon Avionics) with IR.(256 thermal level).
红外热图的产生原理:【Stefan and Boltzmann定律】

W:辐射度(W/cm^2)  e:发射率
 :Stefan–Boltzmann常量(5:6705*10^−12 W/cm^2 K^4) T:温度(K)
对于人类皮肤而言,一般为0.98-0.99,文中近似使用1,该值几乎高于所有实体的反射率,因此通过合理选择温度范围可以轻松的将面部从图像中提取出来(不依赖于肤色、光照等)。

图像:256 levels (8 bits) per pixel,300*300 pixel,使用Silicon Graphics Indy workstation处理

基本算法:
(1)由于面部温度并不取决于摄像机的角度,因此可以将输入图像通过CG技术产生出不同角度的热图。

(2)通过wire-frame model和纹理映射将测试图像和中性图像reform成正面中性表情图像,然后计算两者的差值用于分析面部温度变化。【顶点手工标定完成,The forthcoming paper will present a method for automatically adjusting these feature-points】


(3)计算校正后的正面测试图像与正面中性图像的热差值,然后将热差值图像进行分区,然后进行分别分析。
    

试验及讨论:
两类试验:(1)玩游戏 (2)做算术运算 分别产生pleasure 和intellectual活动
室温:290K  面部提取温度范围:300.5–305K  分辨率为0.3K
5个被试
附加试验:(试验一)比较自发smile和人为smile的面部温度变化
室温:298.5K 分辨率0.025K (由于室温升高,如何检测面部温度的升高幅度很关键)
使用256热度级的红外摄像仪
试验一:play video game

(两个观看者,仅采集一个,首先获取参考中性图像,采集频率1P/m),然后记录玩游戏时自发smile频率与脸颊部位温度变化的关系,下图描述其回归线(1m),由图可知,回归线斜率和相关系数都是正的,因此可以断定:在自发smile时脸颊部位的温度升高,升高的幅度取决于个体本身:
一分钟内的变化情况:
 


样本a、b7分钟内自发smile同脸颊部位温度变化的关系:垂直线标定smile的起始点,由图可以看出,smile越多,脸颊部位温度升高越多,当smile减少时,温度开始下降。该现象对所有样本均相同。


附加试验:(记录了2个个体中一个四分钟game时的面部图像【足以产生面部温度变化】)
先获取参考中性图像,以2P/m的频率记录被试的面部图像,此外还要间歇记录过程中被试2分钟的人为smile的面部图像。
下图比较了自发smile和人为smile是脸颊部位的温度变化。在自发smile时可能引起温度的升高,而人为smile时却没有看到该区域温度的升高。(在以后文章中讨论自发和人为smile引起脸颊温度不同变化的原因),通过该方法,转换为高兴状态时的情况可以被检测到。
      

试验二:Calculating summation of integers
计算:1+1=2; 2 +2= 4; 3+ 4= 7; 4 + 7 =11…. 共10分钟
首先获取中性表情图像,然后1P/m,同时每30秒获取合适的图像。
进行计算时的个体温度变化表现为两组:drastic(3) 和 small(2)(如下图,有的区域没有标记(戴眼镜情况))

样本1各区域变动剧烈;样本2嘴部温度升高;样本3在upper nose、lower nose和嘴周部位温度下降;样本4和样本5变动相对较小。
              

     
变动剧烈 (S3)                     变动较小(S4)
由图14和表2可以看到样本123在计算时鼻子区域和(或)嘴部区域的温度变化可以被检测到。但每个个体的温度变化还是不一致的。根据所提出的方法,关于应压敏感性(stress sensitivity)的人格要素可以被检测到。
这些实验结果表明了个体情绪转换或生理变化时进行模式识别的可能性。Eg:样本4和样本5在试验一和实验二中温度表现出较小的变化。

3、未来应用
通过该方法,可以根据reform后的测试图像与中性图像获取的差值矩阵计算特征向量,然后通过基于学习的方法(如NN等)进行模式识别,达到判别情绪状态或生理变化情况的目的。
其他,进行基于多传感器融合(红外+可见图像)的表情识别等。意义:完成第一阶段和第二阶段的衔接工作,实现自动、实时、交互的目的。
本文中,在通过CG技术完成3D转换时以及图像校正标定特征点时需要大量的手工操作,这些操作必须寻找一些自动处理的方法进行代替。

在标定特征点时,若想实现自动标定,需要能够检测到红外图像上的位置,方向,区域等形象,红外图像上的位置可以轻松实现【Y. Yoshitomi, T. Miyaura, S. Tomita, S. Kimura, in:Proceedings of the Sixth IEEE International Workshop on Robot and Human Communication, 1997, p. 374.】,此外通过红外图像处理获取描述面部方向的特征参数也可以实现面部方向的估计【Y. Yoshitomi, A. Tsuchiya, S. Tomita, in: Proceedings of the Seventh IEEE International Workshop on Robot and Human Communication, 1998, p. 443.】。基于估计的面部方向,正面中性表情人类的wire frame 可以大致将中性表情人脸和测试人脸进行re-form。接下来通过调整这些点到目标脸的合适位置便可以更精确的完成局部模板匹配,其中局部模板是从正面中性表情人脸中获得的。【关于自动标定这些特征点的方法将在未来文章中提出】

缩短计算时间,两个方面:硬件和软件方面。硬件==》计算机技术,单位时间获取图像的数目在将来应该减少以实现实时的目的。交互的目的

情绪和思维状态的个体性差异是一个重要问题,以后将在两个方面进行处理:1、设计一个由个体平均特征向量组成数据库;2、设计从单个个体中获得的特征向量组成的数据库。其中在第二种情况下,在进行情绪状态识别之前进行人脸识别是必须的,在【Y. Yoshitomi, A. Tsuchiya, S. Tomita, in: Proceedings of the Seventh IEEE International Workshop on Robot and Human Communication, 1998, p. 443】中提出了一种基于动态热图处理的人脸识别方法。此外基于红外+可见多传感器融合也是人脸识别的一种方法。

结论:
主题:提出一种通过使用带有表情的热图处理进行检测情绪转换的方法。
具体内容类似引言部分。
结论:基于本文所提出的方法,可能(it might be possible)在日常生活中检测出音情绪状态或生理因素引起的面部温度变化。
2、Analysis of facial thermal variations in response to emotion - eliciting film clips
(视频诱发情绪对面部温度热变化的分析)
NVESD是指当前用于分析面部热信号与潜在生理应激反应之间关系的研究。本文描述了在通过使被试观看视频来诱发情感并用高分辨率,中波红外制冷传感设备进行监视时的一些初步发现。通过试验中的红外视频获得每个被试的全局和局部面部温度属性。每个个体的全局温度模式变化与进行的可见和听觉刺激相关。某些情况下,单个被试局部面部区域的热趋势具有一定的矛盾性。这表明对于刺激,不同区域可能具有不同的热模式。

1、引言部分:
SNS(sympathetic nervous system)交感神经系统是ANS(autonomic nervous system)自主神经系统的组成部分,负责受压情况下的生理变化,即“fight to fight”反应。以往,因情绪和压力引起的反应是通过间接分析皮电反应(EDA)进行测量的。EDA包含了皮肤电传导率和SNS活动相关的参数,因SNS活动引起的生理变化能够影响人面部的温度模式并可以经视频刺激诱发通过高分辨率热传感系统进行观察。
(1)用于刺激的标准化设备:视频片段(amusement、anger、contentment、disgust、sadness、surprise、fear and neutral)选取16个
(2)出来观察因情感引起的面部平均全局变化之外,还存在研究因SNS引起的情绪空间特异性的可能。因此,面部的全局和局部区域将根据压力模式缩采集的情绪集进行分析。

2、Methodology
(1)被试:10个(6M\4F,7白\2亚\1非)被试观看选出的3个用于诱发悲伤和愤怒的电影片段,年龄:20-49(Average 31.7 ,标准差 11.2)
(2)步骤:看视频前先简要介绍实验安排,被试签署同意书及个人信息统计。为了提高准确性和精确性,要求被试看视频时尽量不要活动,当视频压力过大时允许被试转移视线。被试离显示器50inch,红外和可见摄像机放置其后。另外使用可接触设备获取被试的其他生理信号(本文不作讨论)。
红外热像仪:A CEDIP Emerald MWIR (3µm – 5µm) sensor with a 100 mm lens (f/2),视场:5*4,分辨率:640*512pixel,正对被试,保证完整获取被试的面部图像。红外传感器试验时不进行调整以便获得被试面部的绝对温度。温度值被记录为unmapped digital levels(DL)
可见摄像机:Sony HDV Handicam,具有自动聚焦和光学变焦功能
视频:电影片段(Bambi-sad, My Bodyguard and Cry Freedom-anger,2-5m),顺序播放,中间有缓冲视频,本文仅讨论其中一个视频的诱发结果(Bambi)。缓冲时间填写问卷表格,填完后被试准备好后继续下一段。室温:25+/-1C

3、DATA
(1)诱发分析:本文仅分析三个视频中的一段诱发的情绪变化Bambi(2分钟):剧情Bambi and his mother grazing in a snow covered field. Sensing danger, his mother looks up and orders Bambi to run to the thicket. A series of gunshots ring out. Bambi’s mother cries out to him to run faster, and together they sprint across the field. Just as Bambi reaches the edge of the field, without his mother in sight, a single gunshot is heard. Bambi continues to run to the safety of a cave. Once there, Bambi turns to congratulate himself and his mother for making it out of the field safely but the mother is nowhere to be seen. Bambi exits the cave calling for the mother, but she still does not appear. A thick snow begins to fall as Bambi wanders out. Suddenly, a large buck appears. Bambi realizes that this is his father and that his mother has been killed.

对于红外视频,首先记录下每一帧与其下一帧图像中的每个像素差的绝对值,这样可以产生一个差异帧。然后计算该差异帧中所有像素值的标准差。这样,当两帧差别较大时在图像中将产生一个峰值。(该过程可以将视频进行简单分割)


(2)情感自评估
70%被试曾看过该影片,总共选了17个情感类别。最强烈的两种情绪:sadness和unhappiness,且sadness最强烈,但无法确定是在那一场景时该情绪最大。其他情绪相对适中。
(3)Thermal Masks
九个面部区域的像素被用于计算面部局部温度辐射。这些像素边界内的区域mask被用于分析红外视频中一段时间后的温度差异。九个区域中每个区域均有标定其位置的点、相对比例、水平和垂直方向等确定。面部的旋转没有在分析中考虑因此可能对结果带来一定的偏差。
九个区域:【right eye (REP), forehead (FHP), left eye (LEP), right cheek (RCP), nose (NP), left cheek (LCP), full face without eyes (FMP), mouth (MP), and full face (FFP)】.

各区域热属性分析步骤:
(1)根据具体的面部图像及其坐标标定各点。
(2)将面部分为9个区域;
(3)跟踪所有帧中的面中位置;
(4)将区域mask附于面部的中心坐标
(5)计算每个被试的相关统计量,eg:均值、标准差等
(6),通过将每个被试的温度分布标准化到Z值,综合所有被试的统计量:
 X为待标准化的值,u为被试的均值,为被试的标准差。
(7)画出时间序列下的Z值;
(8)根据所获得的视频内容比较Z值曲线的变换。

为了增强各区域热平均值的可靠性,采用了一个跟踪算法(Tracking Algorithm),本文使用跟踪算法是根据每帧中均较好定义的特征(鼻子和眼部边缘等)完成的。尽管整个实验过程中被试活动很小,但使用跟踪算法可以明显提高数据的准确性。

4、RESULTS
4.1、Global Thermal Profile and Emotion
通过初步观察个体的全局热属性发现:几乎所有被试的在由事件1到事件2时温度会升高,在事件2到事件3时温度又会下降,之后温度会再次上升。首先通过平均所有被试的全局温度属性(FTP)对比所有被试的全局温度变化趋势。将该结果的z值同电影片段的事件画在一副图中:

该图表明,在某些激烈场景之后全局温度(FTP)会升高,某些特定场景会产生较强的情绪波动。同时平均温度也具有较高的波动性,这是由于被试呼吸模式引起的。某些证据表明,所有被试的呼吸频率是同影片时间相一致的,但这仍在研究之中。

4.2 Comparison of regional thermal profiles
本部分描述整个面部和其某些不同区域的热差异。下图展示了某个被试前额(FHP)、鼻子(NP)和全脸(FFP)区域温度变化。由图可以看出NP和FFP的平均温度会降低,且FFP具有较大的温度变化而NP变化相当较小。FHP在事件1和事件2温度会普遍升高。事件2之中所有三个区域的温度会在出现温度下降直至事件3发生。在事件3中所有温度先升高然后下降知道视频结束。为了提取这些子区域的准确信息,高质量的跟踪是必须的。
 
子区域数据也可以体现呼吸和眨眼模式,下图展示了嘴部(MP),左眼(LEP)和全脸(FFP)区域的平均数字级(DL)。LEP中选取的放大部分可以看到很多峰值变化,每个峰值均对应着一次眨眼。NP中选取的放大部分可以看出周期性变化,这是由呼吸产生的。FFP的放大部分是由眨眼和呼吸等因素作用在该区域的结果。

4.3 Underlying Physiology
在O’Kane的初步研究中,当一个被试被进行视觉和听觉刺激时,其较低温度区域被发现会在面部时隐时现。然后将该现象的次数随后同皮肤表面的电导率进行比较。最后得到两者之间的相关系数:0.84,这表明:这些低温区域是由面部的汗孔产生的。
在此研究中,电导率\EDA一般在前额活指尖部位获得。这些区域的EDA以及不同区域的汗孔数目仍在分析之中。


CONCLUSION:
当前在NVESD中收集的实验结果表明:
通过声觉和视觉刺激产生的心理压力\情绪变化会引起明确的热反应。
通过十个被试的情绪自评估可以确定,通过实验视频可以收集到强烈的sadness和unpleasant情绪。
整合所有个体整脸区域的热信号可以得到对应于视频播放时的情绪变化。
同时观察了面部子区域内的振幅和相位变化。结果表明,在进行刺激时面部不同区域具有不同的热属性。同时测量了子区域的呼吸和眨眼运动信息。
此外在未来的研究中,通过高温度分辨率和同步测量对于建立生理压力和情绪变化同非接触热信号的关系也很关键并将在将来进行深入研究。
将来在特征跟踪和传感器矫正方面的改进将进一步说明具有增强区域模式的全局热反应特征。
3、Thermal Signatures of Emotional Arousal: A Functional Infrared Imaging Study(情绪诱发的热信号:功能红外成像研究)

摘要部分:
本文通过功能红外成像技术研究三种基本情绪(stress、fear、pleasure)的面部热信号。通过面部皮肤温度及其形态分布,可以清楚展示情绪诱发与神经反应产生的标准生理信号测量的相关性。本研究的结果表明:红外成像技术可以作为一个用于测量个体因心理因素产生情绪诱发的可供使用、少接触、非侵犯的方法。

引言部分:
情绪反应是人类行为的重要表现形式。一般由许多外界和内部刺激产生。关于该反应活动的研究已经通过测量用于表现交感神经活动引起的生理参数进行,如:。交感神经皮肤反应、心率或呼吸率、皮电反应和EEG研究等。但检测这些参数需要使用设备接触被试且需要不短的评估时间。这些传统方法不能实现快速、非侵犯的情绪反应监控。
此外,由这些反应相关的短期热反应是众所周知的。通过测量由情绪诱发产生的微妙热反应可能会提供有关交感神经活动的有用信息。由于皮肤温度取决于皮肤的血流量、局部组织代谢以及泌汗神经反应等,而所有的这些均由交感神经系统控制。
功能红外成像技术(FIR)由动态记录皮肤热分布及其在空间和时间上的分析组成。fIR依赖于高温度和时空分辨率的数字设备及其实时处理技术。本文主要使用fIR检测和量化由不同刺激获得的情绪诱发。

MATERIALS AND METHOD:
本文研究了十个健康被试由不同刺激诱发的情绪引发的热反应变动。神经心理测验的正常目的在于评估个性特征及交感神经疾病等。
红外摄像仪:digital infrared camera AEG 256 PtSi, 3-5  µm, spectral range, NETD = 0.04 K, frame rate = 50 frame/sec
环境:室温控制(23+/-1 C)50-60%相对湿度
要求被试去除可能影响交感神经反应的附属物。
伴随着fIR记录同时通过PowerLab ADInstruments system,进行了ground thru测量,可以以1kHZ的采样率记录心率、呼吸率、皮电反应、手掌温度及血压。

SUB-PAINFUL STIMULI:
在进行交感神经热反应(STR)测试的同时,对腕部的中部神经进行突然的电击对皮肤泌汗系统反应(SSR)进行测试。通常对每一个测试者进行5至8次突然刺激,同时记录每次刺激时温度变化幅度。为了避免适应,两次相邻刺激间的时间间隔是随机的。通过刺激另直至手腕和面部产生的热图进行记录STR。
4、 An Attempt  of Feeling Analysis by  the Nasal Temperature Change Model(2000)
1、问题的提出:
(1)Woodworth的助理研究员Schlosberg曾经提出一种椭圆表面情感模型,该模型认为人的六种情感都包含在一个椭圆表面内。他认为人类的所有情感都可以在一个包含Pleasantness to Unpleasantness (P-U)轴和Attention to Reject (A-R)轴的平面内表示出来,后来,又添加了另外一个轴Arousal to Sleepiness (A-S),因此提出了三维情感曲线模型。
(2)Russell曾推断说人类的大多数情感通过一个包含Pleasantness to Unpleasantness (P-U)轴和Arousal to Sleepiness (A-S)轴的曲面中的一个二维向量就可以表示出来。
(3)文章立场:情感是基于空间表示的,并可以通过面部红外图像和脑电波(EEG)来研究人的情感。主要从两个基本方面来进行情感估计,即:将生理讯号的改变从Unpleasantness (P-U) 和Arousal to Sleepiness (A-S)两方面进行分析。
(4)文章主要内容: 本文首先对由于愉快和不愉快声音引起的鼻子部位温度变化情况进行多元回归分析,然后对经过单调视觉刺激(monotonous visual stimulus)后的鼻部红外图像进行局部分形分析(local fractal analysis),最后,结合这两种方法,对收看视频时的情感变化进行分析尝试。
2、Thermal image:
(1)测量
对于面部皮肤温度,环境温度变化对体温的影响很小。鼻子血流系统运行于皮肤和鼻骨之间,其他区域位于脂肪层之下。因此鼻子区域温度直观反应了前毛细血管环流系统中血流量的改变。此外,AVA(动静脉吻合)是在动静脉之间形成的一个短路系统,用于调节表层血流量。因此,该调节功能是有自主神经控制完成的,鼻子温度能够直观反映血管的舒缩运动。
使用热传感器获得被试面部,距离0.8m,红外热图:255*239pixels,并进行角度调节使得上下两端为前额和下颌。测量间隔是1s,温度分辨率为0.01C,面部皮肤发射率为0.98。
(2)处理
红外热图的处理方式如图一所示:
(1) 首先通过Kittler方法将热图进行分割,然后将眼眉和鼻孔边缘从面部提取出来
(2) 然后使用Robinson边缘检测方法对局部区域的像素温度值进行处理,并计算眼眉的中心坐标(在眼眉和鼻周区域的温度要比面部其他区域温度要低,并且这些形状不随温度改变而改变)
(3) 接下来固定鼻孔周围区域并使用同样的方法计算鼻子部位的中心坐标
(4) 由所计算的中心坐标去定位鼻子和前额区域



(3)主观值测量
VAS(直观模拟尺度,Visual Analogue Scale)是一个心理指标,并且容易测量。此外两个测量值为愉悦度和唤醒度(Pleasant-Unpleasant和Arousal-Sleepiness)。
3、数据库来源,包括情绪诱发实验的具体设计方法以及实验器材等:
1、红外图像的拍摄:热量探测器位于测试者面前,距离为0.8米,热图的尺寸为255*239像素,通过调整角度使热图的上下端为前额和下巴,测量间隔为1秒,温度分辨率为0.01C,面部皮肤放射率为E =0.98。

2、测量值:VAS (直观模拟尺度,Visual Analogue Scale), 另外还有两个表示Pleasant-Unpleasant和Arousal-Sleepiness的检测项

3、P-U估计模型
(1) 鼻子的温度变化表示了对不愉快声音刺激升高或降低所引发的反映。我们从温度变化较小的前额和鼻子区域之间获得温度梯度,并获得时序数据。将鼻上(nose upper)-前额,鼻中(nose central)-前额和鼻底(nose lowwer)设为测量点,其中三个分割区域几乎位于所提取的鼻子区域的垂直方向上。
(2)P-U模型通过回归性获得:

其中x1\x2\x3表示三区域在单位时间内的温度改变。在此假设x1’、x2’、x3’均为0,因为它们表示平均温度改变,另外设y’=0.5。因此可得下式,并将其作为P-U估计模型。
(应为+0.5?)
(3)试验:
试验者:6男2女(22-23岁)
声音:古典音乐—愉悦声  噪杂声—非愉悦声
试验:试验者佩戴耳机处于安静状态10分钟,然后给出噪杂声,最后给出古典音乐。
结果:给出unpleasant声音时,鼻子温度下降  给出pleasant声音时,鼻子温度升高;并通过测量数据获得P-U估计模型的复发系数(recurrenlte coefficient) a1, a2, a3,平均值为a1= -4.65, a2= -3.69, a3=0.80;鼻上(nose upper)区域的温度变化较大,且对P-U变化的贡献最大,因此三系数的关系为:a1>a2>a3。

最后通过试验数据测试该模型的有效性:
模型的有效性通过7名测试者的数据和P-U估计模型估计剩下一名测试者的愉快状态。估计值随着温度的改变而改变,其中:愉快状态估计值接近0,不愉快状态估计值接近1,安静状态估计接近0.5。试验结果表明:不愉快状态下的估计值为0.2,愉快状态下的估计值平均为0.8,p<0.1(T检验)。因此可以认为在该试验系统中该估计模型对于P-U估计是很有效的。

4、A-S估计模型
(1) 唤醒水平
唤醒水平有两种类型:标准唤醒变化和持续唤醒变化。标准唤醒变化是以小时为顺序的昼夜节律变化,持续唤醒变化依赖于感觉刺激量,是以分钟或秒的方式进行波动的。本文假定情绪状态下的唤醒水平是持续唤醒变化并对其进行估计。
一般而言,脑电波(EEG)和眼球运动(EOG)等已经被用于估计唤醒度水平。使用分形维数在数量上对该度量进行估计,用于表示热图上波形复杂度和粗度。由于气流互换和液体分布,血管丛产生了分形结构。实际上血管丛在微小到极大范围内并不会产生相似的分形结构,此外,热图测量本身存在着精确性的限制。因此,我们考虑的局部分形维数分析(相近维度直接具有自相似性)对于鼻子温度区域的特征提取是很有效的。
(2) 使用局部分形的A-S估计模型  
假设待分析区域用格子分开,每个格子中有r像素,假定N(r)为:

其值不依赖于尺度r,C为常数,D为分形维数。首先,假设单位面积为r*r(pixels),覆盖了热图的单位区域的矩形数n(r)为:

其中,Ii(i=1,2,3,4)为像素点处温度的100倍【由于温度分辨率为0.01C】。当所有面积为A的分析区域中所有的n(r)计算出来后,其平均值为:

然而在实际的热图中,所有尺度上并不是自相似的。当然每个尺度(Scale)中的值都可以作为热图的特征。于是,自相似被假设只发生在相互邻近的尺度之间。

D(r)为尺度r下的改变率,即局部分形维数。尺度r下的D(r)是回归线梯度的绝对值,这在有三个点的最小二乘法中是必须的(())。计算的分形维数为38()
唤醒度的参考值为EEG中的a波(8-13Hz)。通常,a波的振幅会被用做唤醒度的指标。
接下来,根据分析值计算唤醒度模型。在该多元回归分析中,待分析值为:a韵律波的振幅,解释变量为面部皮肤温度。
(3) 实验:
试验者为6人,21-23岁之间,处于安静状态下,睁眼。测量面部皮肤温度和EEG(脑电波),测量间隔为5分钟,测量两次后中间休息2分钟。用#表示目标,*表示非目标,显示时间持续0.6秒。间隔时间2.4秒,将目标形状的计数任务和测量值展现给试验者。
结果:相关分析结果同a波动振幅有着明显的相关性。
有效性分析:该模型中六名试验者的估计具有明显的相关性。

5、情感诱发
试验:
本试验中通过P-U和A-S估计模型,并通过收看视频节目作为情感诱发方式来估计愉快和唤醒状态。情感分布通过在一个带Pleasant轴和Arouse轴的二维平面中表示。
试验者为4名男性,年龄21-23岁,观看四类视频:日本戏剧表演==大笑  拳击比赛==愤怒  美国悲剧电影==悲伤  日本恐怖电影==恐惧(全部为日文发音)视频长度为3分钟 试验过程中记录试验者的红外图像并测量VAS (直观模拟尺度,Visual Analogue Scale)
   测量值:
(1) 在时间序列上的情绪变化。时间序列图描述了每一分钟的情感变化。实际上系统的工作间隔为15秒,这样可以缩短分析间隔。图三也给出了不同个体间的变化差异。主要考虑两个因素:(1)在反映时间的个体差异,这主要取决于鼻子部位的血液流量;(2)各个人的兴趣爱好,这关系到各种心理状态的愉快和唤醒程度。
   (2) 在度量方面的分布。图三给出了含有P-U轴和A-S轴的二维平面上各种情感的分布。根据视频节目画出一系列的点。不同试验者间的位置分布是不同的。到原点的距离反映了情感的强烈程度,因此情感点可以表示为该平面上的一个向量。
结果:分布于第二象限,在Russell思想中这属于Stress方向;
分布于第三象限到第四象限之间,这属于Sleepiness方向,P-U表现为放松到忧伤之间。
分布于Pleasantness方向,另一个分布于Depression方向,
分布于Unpleasantness方向,这是一个相反的结果。
可以认为P-U主要同LAUGHTER和ANGER有关联。
改进方向:估计值应该加入主观估计值。
4、相关结论:
文章尝试通过收看视频节目时获得的红外图像来判断人的情感。在现代心理学领域,有人提出人类的情感可以通过一个包含愉快程度轴(Pleasantness)和唤醒(Arouse)轴的平面上的一个向量来表示。文章通过多元回归(multivariate regression)来研究Pleasant-Unpleasant (P-U)估计模型和Arousal-Sleepiness (A-S)估计模型,并检查该分析模型的有效性。

5、Infrared thermal imaging as a physiological access pathway: a study of the baseline characteristics of facial skin temperatures (2009)
(作为生理处理方式的红外热成像技术:面部皮肤温度的基本特征研究)
本文通过动态热红外成像技术研究了面部皮肤温度的基本特征,并验证其在具有无语言功能障碍个体上用于生理处理方面的可能。通过使用高端红外热成像设备获取了12个健康被试在休息状态下的正面面部记录。根据红外热记录,获取了包括鼻子、眶周、眶周在内的兴趣区域的平均皮肤温度时间序列。所有兴趣区域90%的bandwidth均在1Hz的范围内,70%以上的时间序列被定义为非稳态的(P<0.05),非稳态意味着为最大贡献源。不同区域间的相关系数是明显的(p<0.05)且变化范围为0.30(眶周和眶上区域)到0.75(眶上两侧之间),通过信息测量,我们发现最大的信息存在于眶周和鼻子区域。所有区域间均有交互信息,尤其突出的是鼻子和眶周区域之间。本研究的结果提供了一种恰当的分析方法和可将面部皮肤温度潜用于生理处理方法的潜在鉴别特征。

引言部分:
具有功能障碍的人群往往借助于处理技术同外界环境进行交互。处理设备的有效性取决于设备同个体的有效可靠处理方式。处理方式可以为身体的或心理的,如肢体活动、自主神经反应和大脑活动等。
目前已经将面部皮肤温度的红外图像用于各种有效计算之中,如测谎试验、情绪检测等。某些研究已经表明了面部皮肤温度变化同恐惧、喜悦、情绪的诱发、精神压力的产生等具有相关性。这些变化的有效分类可以用于提供具有功能障碍个体的情感状态。使得动态红外成像技术可以作为测量面部皮肤温度变化的高精度、非语言方式,并将其作为一个潜在的生理处理方式进行应用。
具体而言皮肤温度变化可分为两类:情绪体温调节和生理体温调节。生理体温调节包含了用于控制体温恒定的人体处理机制,如:面部血管的舒缩运动、汗液蒸发、颤抖、心率变化、血流量变化等。这些变化均是自动自然发生并使体温发生变化的。相反,对于情绪温度调节是由情绪或精神变化产生的可测的温度变化。为了设计以一个可行的基于皮肤温度的处理方法,首先需要区分开我们应忽略的生理温度调节和我们所需的情绪温度调节。然而,情绪温度调节的反应在很大程度上和生理温度调节相似。
处理方法的设计首先需要获得皮肤温度时间序列的基本特征。本文重点关注于个体在中性环境下的面部皮肤温度时间序列的基本特征。这些基本特征体现在频率组成和稳态(frequency content and stationarity)以及信息含量和面部各区域间的相关性。只要了解这些基本特征才能进行情绪的诱发和检测研究。

Methods:
红外摄像仪:FLIR Systems ThermaCAM (Model SC640) long wavelength infrared (LWIR) camera,7.5 and 13 μm,30frame/sec ,uncooled microbolometer focal plane array (FPA),maximum resolution of 640 × 480 pixels ,thermal sensitivity of less than 0.06 C a t 30 C.
同时采集以下两项:
呼吸效果测量:strain-gauge-based respiratory belt (1370G, Grass Technologies) (系于被试胸腹)
血压测量:photoelectric pulse sensor (Model PPS,Grass Technologies) 连接于非优势手的食指

在上午1小时内采集了12个健康成年人(9F,24.0 ± 2.9 岁)的基本数据。被试填写同意书等资料。
实验室温度和湿度控制参照per medical infrared imaging guidelines outlined by Ring and Ammer(2006),采集期间,室温为24.9 ± 1.7 C,相对湿度32.1 ± 8.1%.,另外控制室内空气对流,被试距红外摄像仪1m,为保证每个被试达到热中性(thermal neutrality),给与被试一个20分钟的平衡周期,参照【outlined in infrared medical imaging standard practices (Ring and Ammer 2006)】。
当被试静坐休息时获得两个正面记录。每个基线记录长度为90s。本文研究三个面部区域:前额\眶上区域,眶周区域和鼻子区域。眶上和眶周又分为对称两侧。设定皮肤发射率为恒定(0.98).通过计算每个区域内的辐射量空间均值获得每个区域的平均温度时间序列。平均温度信号经过基于小波的方法进行降噪处理,即基于Daubecies wavelet (db4) 的5级离散小波变换。最后在频率组成、稳态、各区域的信息量和区域间的相关性等方面分析经过降噪处理的时间序列的特征。

(1)Frequency content(频率组成)
使用短期傅里叶变换(STFT)进行分析信号的频率组成。STFT’被广泛应用于静止和非静止信号的时频分析。一个给定具有STFT系数为cij的频率的标准信号能量定义为:
绝对值号表明复数的大小,E(fi)代表在频率fi处的信号能量估计,cij表示在特定时间tj和频率fi处的STFT系数。使用无参Mann–Whitney测试进行处理前述不同面部区域间信号能量测试中的相等中值的虚假设,对不同的窗口(STFT中)大小显著性水平为p=0.05。
(2)Stationarity(稳态)
稳态是通过reverse arrangement test进行评估。这个普通的非参数测试已在先前的研究中被用于评估生理信号的弱点或广义稳定性。该测试通过使用反向安排的总数进行稳态测试,通过比较观察到得总数和从随机稳态处理实现得到的期待总数进行比较。本文中期待和观测反向安排(reverse arrangement)总数进行评估的显著性等级是0.05。【reverse arrangement test参照Chau et】,反向安排测试的结果依赖于窗口的大小参数,窗口尺寸最小时可以获得最低频的信号部分。SFTF分析表明:平均温度时间序列上的大部分信号能量位于1Hz范围以内。这表明1s是最合适的最小的窗口尺寸。在反向安排测试中使用的窗口尺寸以1S为增量从1s至9s。在反向安排测试中的相等中值(Equal Median)的虚假设统计来自使用已在Mann–Whitney测试测试的不同大小窗口的结果。
本文调查非稳态的三个潜在来源,即:随时间变化的均值、方差和频谱(frequency content)。非稳态时间序列被划入不重叠的窗口中,并计算各窗口中的均值、方差和中位频率。最后使用回归分析验证前面所提计算值时间不变性的虚假设。(回归线的斜率同0没有明显不同,显著级别为p=0.05)

(3)信息理论测量
为了确定面部易变区域,本文检查由平均温度时间序列中的信息总量。使用这里使用被广泛应用的信息熵:
 
Xn是给定兴趣区域中的平均温度时间序列,p(xn)是xn基于核密度估计(KDE)的概率密度函数。算法的基被设置为2,因此信息的测量是以位的形式表示的。
Pearson的差积相关R用于测量两个兴趣区域温度变化的平均一致性。使用显著级为p=0.05的t检验验证R值同虚假设无相关性。
    使用交互信息确定不同面部区域间所共有的基本温度信息。交互信息按位计算,定义为:

Xn和yn分别代表两个不同兴趣区域的平均温度时间序列,P(xn),P(yn)和P(xn,yn)为边缘和联合概率密度函数。交互信息接近于0表明两个区域共享了很少的温度时间序列。

RESULTS:
表一所示为不同区域的平均温度,表二为所有区域90%波段(即:低于90%信号能量的频率被包含)的总结。在低频区域可以看到大部分的信号能量:全部兴趣区域不足1Hz。考虑到最大的窗口尺寸可以获得最好的频率分辨率,我们发现各区域90%波段没有明显区别,这表明面部所有的待检测区域具有类似的频率内容。


表三总结了五个兴趣区域稳态分析的结果。平均温度时间序列具有很大的不稳定性。鼻子区域的时间序列表现出最不稳定的信号,这可能是由于因呼吸率(固有的非稳定生理信号)变化引起的温度波动。左右眶周也表现出很大的不稳定性,在这些不稳定信号中,大部分中值稳态统计值是负的且在很多情况下低于临界值,这表明比静止信号所期待的反向安排(everse arrangement)还要少,意味着均方序有上升趋势以及在记录期间温度整体上升。

前额、眶周(p>=0.05)和鼻子区域(p>=0.05)的所有测试统计量在窗口区域内没有明显的不同。图二阐明了在所有时间序列上来自均值,方差和中频的影响问题假设的非稳态源。其中不稳定均值是信号非稳态的主要影响因素。在所有的不稳定均值集合中,70%以上的回归线是具有明显正斜率的,说明了稳态分析中上升趋势的明显性。几乎所有面部区域之间均具有正相关性(表4)。熵和交互信息计算结果如表5所示。就单个区域而言,鼻子和眶周区域包含了最多的信息量。最大的交互信息量也是出现在鼻子和眶周区域。





4、Discussion    
(1)基本频率内容
频率内容的STFT分析表明,90%的平均温度时间序列信号的熵在0.6Hz以下,99%在1Hz以下。我们猜测低频是由于鼻腔区域的血流、血管舒缩、气流等因素引起的。众所周知,皮肤温度主要是表皮血管内血液对流传热产生的。而心率直接影响血流量,本样本中为62.5 ± 10.6beats per min,近似转换为1Hz的信号量。中值呼吸率大约为16.5 ± 4.5 breaths per min,这表示为大约0.3Hz的信息量。本文数据样本中的心率和呼吸率同报道中的健康成人的静止范围(resting range)具有可比性。由于基本皮肤温度时间序列手信号量中的低频部分控制,这就意味着皮肤温度受呼吸率的影响要大于心率的影响。呼吸率对皮肤温度时间序列的影响可以通过情绪输出的脉管论(VTEE)进行解释。VTEE表明,由鼻子呼入气流的量和温度的变动可以改变周围血管中血流的温度,尤其是前额区域。由于皮下血管血流中对流传热可以引起大量的皮肤温度变化。由于呼吸改变了鼻子区域血管中血液的温度,周围皮肤的温度也会随着发生相应的改变。我们研究发现:基本的皮肤温度的波动频率同呼吸频率十分一致。偏离该信号能量分布可提供baseline改变的指标。
(2)Stationarity(稳态)
60%的前额,70%的眶周,90%的鼻子区域的平均温度时间序列同弱定态(weak sense stationarity)假设相违背。在这些非稳态信号中,80%以上表现明显但在时间变化均值中有少量的正斜率。同此类似,在测谎研究中其均值也具有上升趋势。通过观察整个平均温度时间序列可以看到,虽然在整个记录过程中温度有整体上升趋势,但也有部分会出现大幅度的快速下降,这可能是由于矫正体温调节处理或吸气时的对流制冷等因素引起,之后便是一个缓慢的温度上升过程。如此快速下降和之后的缓慢上升可以产生一个明显的正斜率变化。该时间变化特征对于分析皮肤温度时间序列具有很多意义。较高的时间序列非稳态百分率表明在选择分析方法之前需要进行常规稳定测试。如:像时频分析方法中小波变换比傅里叶变换更适合处理非稳态信号。由于时间序列不稳定,这可能会误用简单的统计量(如整体均值)来区别baseline的变换。实际上,我们的数据表明基线时间序列在面部一定区域以0.5C的梯度级进行变化。在以前的情绪体温调节中该梯度级的变化也曾被提前过。


(3)区域相关性(解剖术语)
面部各区域间的相关性可以通过解剖细节进行解释。额支(Frontal branch)和眶上动脉位于前额区域,angular和额动脉分支通过与眶周区域,鼻侧、隔膜和上唇动脉通过于鼻子区域均有外部颈动脉供血。面部静脉也有类似的发现。对于具有相同血液来源\排除方向的血管附近的区域,我们总认为这些区域具有很高的相关性。实际上,通过非接触红外辐射成像技术,Williams等发现耳动脉背面和表层颞动脉表明的温度具有明显的相关性,并通过引用血液来自同一动脉为理由进行解释。此外根据以往关于健康成人对侧热对称性的研究,我们期望对侧区域间也具有很强的相关性,的确,前额区域始终会有很强的正相关性。左右眶周区域的温度也具有明显的相关性,但实际相关性要比前额区域的相关性要弱。这些眶周区域在相关性系数和共有信息测量中也具有很高的波动性。眶周区域的低相关性和高可变性可能是由于受鼻孔区域气流和周围血管血流温度的影响。进入鼻孔的气流以一种不等、可变的方式分到左右两支。实际上,根据呼吸类型和鼻腔结构,鼻腔气流可以分为层流、过渡气流和湍流。因此我们猜测左右眶周区域的血流将经历不同程度的呼吸,包括对流制冷。这将引起眶周区域相关性的降低和可变性的增加。

(4)Information content(信息量)
表5的熵计算结果表明:鼻子区域和眶周区域包含有最大量的的信息。鼻子区域熵较多的原因是由于鼻子区域的呼吸率可以引起鼻孔区域温度的变化,以及引起皮肤温度变化的不同的温度调节模式。先前的情绪温度调节研究表明:眶周区域对于恐惧和压力刺激具有最大的不稳定性。左右眶周区域的大熵值(>4bits)表明这些区域的不稳定性可能也存在于baseline中。最大的共有信息量出现在眶周和鼻子区域,同样,我们将此归因于两区域共有的血管以及两区域间的对流制冷。特别是,区域间明显的共有信息意味着我们可以通过某一区域的趋势去确定相关联的其他多个区域的变化趋势,当某些区域出现热堵塞时该现象非常有意义。

(5)Limitations
由于人体温度是随时变化的,该研究仅针对采集数据时的特定时间段进行了研究。期待能够像人体其他处理方式一样发现温度变化在整天内的特征和关系。为了更一般的描述baseline特征,将来会针对一天内的不同时期进行研究。尽管如此,本文研究中尽量保证了热中性和休息状态下的心肺环境。

(6)作为处理方式的热成像技术
本文结果对于将热成像技术用于生理处理方式具有重要的意义。首先,温度信号中显著的低频内容表明热成像技术可以作为一个合适的处理方法。反应时间大约为几秒钟,同其他生理处理方式类似,如皮电活动或皮层血液动力学等。其次,处理方法中要实现自动检测情绪反应,仅给定baseline温度的时间变化特性将仍很困难,这可能需要借助用于非稳态时间序列中的近期变化点法(Recent Change Point Method)。最后,鼻子和眶周区域可以被选作处理位置。它们的高交互信息表明在设计处理方法时的柔韧性,即:至少获得这些区域中的一个。

5、Conclusion
本文对面部眶上、眶周和鼻子区域的平均温度时间序列的基本特征进行了研究分析。STFT分析表明大部分信号能量处于低频区域,接近于呼吸和心跳频率。反向安排测试(Reverse Arrangement Test)结果表明50%以上的平均温度时间序列是非稳定的,几乎所有都是由于时变均值(Time-varying mean),该非稳定性表明:时频方法可能比简单的汇总统计更适合于分析皮肤温度变化。所选兴趣区域的平均温度序列一般表现出明显的成对相关性。根据鼻子和眶周区域的高熵值可以确定两者的baseline是最不稳定的。这些区域同时具有很高的交互信息。
6、Automated classification and recognition of facial expressions using infrared thermal imaging
(基于红外热图的面部表情自动分类和识别,2004)
面部表情识别软件一般都是基于可见光图像的,很少使用热红外图像。本文通过红外图像中的热关键点(定义为面部热特征点FTFPs)进行识别,结果表明通过在FTFPs中记录的热密度值(TIV)中的变化能够识别一般的人为表情。通过多元测试和线性判别分析,我们检验能否在不同人脸间根据TIV进行面部表情分类(FEC)。结果表明TIV提供了热数据的一个有效集,并能够用于识别happy、sad和disgust的人为表情,IRTI可以作为一个可选的,并与可见光图像互补的方法用于FEC。此外IRTI可以实现非侵犯性识别,并可用于光照和图像质量不好时的识别。

9、Facial Expression Recognition Using Thermal Image  (2005)
本文通过数学形态学方法研究面部表情识别,通过绘制和分析红外热图(IRTI)中的整体纹理特征和一些兴趣区域的纹理特征。识别结果表明:不同表情下兴趣区域的纹理特征明显不同。此外面部温度变化几乎和表情变化同时发生。研究表明了基于IRTI进行面部表情识别的可能性。该方法可以用于对面部表情的实时监测。并用于辅助诊断和疾病医疗等领域。

引言部分:
面部表情包含了大量的人类行为信息,并是人体感觉的直接行为表现。对面部表情的研究和分析将有助于对人体健康状况进行诊断。因此,面部表情识别的研究将有助于判别人体和精神状态的健康与否。如,有些患者不能够表达其感觉时,表情将有助于此。此外还可以用于情绪的监测。

理论及方法:
提取面部红外热图的兴趣区域并将其特征(纹理特征如:面积、周长、曲形半径等)通过数学形态学的方法获得。本文通过数学形态学的三个基本操(腐蚀、膨胀和开操作)来描述基本结构和纹理特征。
(1)图像膨胀
A为目标图像,B为另一幅图像,被定义为结构单元。A通过B膨胀后可以定义为:
(该操作也被称为Minkowski和)
(2)图像腐蚀
A为目标图像,B为结构单元,A经B腐蚀后可定义为:

Ac为在A中移除的最后一部分,被定义为A的增补集。公式2表明,A的增补集首先经过B的映射进行膨胀。上述步骤增补集的结果将作为A经B腐蚀后的最终结果,也被称为Minkowski Difference。
(3)图像开操作
A为目标图像,B为结构单元,A经B做开操作后的结果定义为:

首先,A经B腐蚀,并将其结果经B进行膨胀。开操作主要用于平滑图像。本文中的开操作是基于四邻域膨胀和腐蚀完成。

(4)测量区域面积
设x对应于目标图像的一部分,N(1)表示图像元的数目,接下来使用方形网格,c:

但对于正六边形,对应于X的连续目标图像面积为:

如果分辨率相同,使用正六边形会得到比其少的单元,因此本文使用正六边形。
(5)提取和分析IRTI特征
在以往研究中,一般通过定义和分析图像中某些兴趣点或线的运动来实现面部表情的识别。根据表情产生的生理机制,即:面部肌肉运动产生表情和不同的热模式,通过使用IRIT和局部纹理特征及全局纹理特征,我们可以判断其肌肉运动的差别,由此判断面部表情的差异。本文将引入三个变量来描述兴趣区域的特征:面部兴趣区域的周长、区域面积和周长。算法流程:

提取IRTI彩色图像中兴趣区域之后,通过数学形态学方法计算其周长和面积。为了减弱和去除图像分割后图像中burr现象,引入开操作。多组图像被获得和处理,举其一为例说明如图2和图3.
为了去除一系列环境因素对面部温度的影响,此处考虑相对变化进行定量分析。定义变化率为:Change Rate=Changed Amount/Initial Value.数据见表1.



Experiments:
本文引入calm和smile两种表情进行分析,在试验中,首先获得calm时的IRTI,其次是smile。结果表明:三个参数的变化率均在6%左右,这表明:基于IRTI的面部表情识别是极有可能的。
有两方面将导致数据错误:首先,在测量角度时,嘴部的边缘切线被画出。这将导致很大的个体差异。其次,某些图片面积并不唯一,这将导致边界绘制将会非常复杂因此不能提供准确的兴趣区域周长。此外,发现面部表情变化同温度变化具有一定的偶然性,因此研究实时表情监控系统具有重要的意义。

Conclusion and Discussion:
本文仅对calm和smile表情为例进行了研究,结果表明:面积和角度均能相关的表现出区域特征。但由于区域的曲线结构,在测量角度是的认为误差是很严重的。构成面部表情其他区域如脸颊、前额区域也是数学形态学可以应用的重要位置,如果能够包含这些区域,将会获得更好的结果。在未来研究中,注意到区域的面积和曲线构成表情重要特征,并构建模式识别模型实现更精确的表情识别。
10、Facial Expression Recognition Using Thermal Image Processing and Neural Network(1997)
文章主要内容:
检测面部温度的二维分布
对输入的面部图像进行归一化处理(尺寸\位置)
接下来测量未知表情脸同中性值间的局部差异(Local Difference)
为测量局部差异,首先将面部根据心理学研究分区可以提高精度
由面部肌肉的重组和内部温度的改变引起的局部温度差异作为神经网络的输入数据
通过BP(Back Propagation)算法可以使得中性\高兴\惊讶以及悲伤的表情识别率达到90%的精度

引言部分:
在可见光人脸表情识别:
(1)在复杂光照环境下识别表情的鲁棒性差阴影、反射以及黑暗环境都不可避免的引起灰度级的改变
(2)还不具备从面部表情推测人类情感及思想的能力通过普通相机拍摄的不同图像的灰度级差别很小
  文章采用描述人脸温度分布的红外图像进行表情识别,以前的研究表明对微笑和中性表情的识别效果很好

在心理学方面,介绍了FACS(人脸运动编码系统),描述面部表情特征的单元:形变单元(Action Units)
FACS-AU没有进行定量的操作,容易导致一定的模糊性
要求对面部表情和情感进行定量测量
当前研究的目标是通过计算机视觉实现人脸表情检测。工作:(1)同心理学家合作建立用于区别人脸表情的数据库。由于研究尚处于初步阶段,文中的数据库相对简单,面部表情只有四种:中性、高兴、惊讶和悲伤,图像序列的数量也不是很大。文中通过一个小的推测来讨论目前做法的通用性。在为识别人脸信息而进行的红外图像分析过程中,进行了红外图像处理,并通过使用神经网络方法来识别各种人脸表情。

Image Acquisition and Analysis System(图像获取和分析系统)
本研究中所使用的人脸热图是通过红外热成像系统(Nippon Avionics Co.,Ltd,TVS-3500)产生的。热图生成原理通过著名的Stefan--Boltzmann定律表示如下:

其中:W是辐射度(W/cm'),(2)是发射率,(3)是 Stefan – Boltzmann常量(),T是温度(K)
对于人的皮肤而言,(2)的范围大约为:0.98-.099,而本文中使用1作为其近似值,其他对象的(2)值都比人类皮肤的(2)值要低。因此取(2)=1可以在通过选取皮肤温度范围生成的红外图像中可以容易地提取人脸。红外热图像系统规格:热能级16(4位)8mm成像,然后将红外热图进行256级(8位)每像素进行数字化处理,再将这些数字化图像存储在硬盘中(空间分辨为300*300像素单元)。输入图像中低灰度级表示低温区域,高灰度级表示高温部分。在理论上来说, 红外温度测量不受肤色、黑暗和光照条件的影响,因此人脸及其特征可以很容易的从包含人脸的输入图像中提取出来。
另外通过已通过实验证明本系统生成的红外图像不受光照条件的影响。另外根据目前的研究还未发现阴影或反射会对面部区域温度产生影响。
可见光图像用于人脸表情识别的缺点是:面部表情识别的精度受光照条件(阴影变化、反射以及黑暗)的影响很大,但红外图像却很好的克服了这些缺点。

Recognition Algorithm(识别算法)

将人脸正面图作为输入图像,
(1)图像尺寸和位置的归一化处理: 为了识别人脸表情,要求观测者表情自然,同时处于自然环境下,无特殊限制。但是由后面的解释可以知道,表情识别是通过将测试图像和平均中性的图像比较获取的差值图像完成的。因此需要对图像在尺寸、面部重心等进行归一化处理。通过使用Otsu方法进行分割、.测量二值图象的水平费雷特直径和重心、对输入图像进行仿射变化等操作完成图像的归一化处理。
(2)差值图像的产生及特征参数的测量


上图描述了用于提供人脸表情识别的特征参数的二值图像的产生过程。首先提供一张平均中性图像A作为参考,然后通过未知图像B和参考图像A生成差值图像A-B和B-A(条件:将由差值计算产生的负值转换为0)。然后通过3*3中值滤波器对A-B和B-A进行滤波处理a,再在阈值为2级和3级进行分割处理(2级和3级相当于IR设备热量差值单位的2倍和3倍)。此外对A-B进行灰阶转变的反差增值处理b,通过3*3中值滤波器过滤5次,在使用Otsu方法分割并清除小块区域。


总之,通过以上操作可以产生5张二值化图像。然后在a操作和b操作产生的不同的二值图像进行不同的分割(见图,分块的划分是基于心理学领域的研究,尤其是FACS-AU),一共产生17个标准区域做为人脸表情是别的特征参数。
(3)Recognition with Neural Network(基于神经网络的人脸表情识别)
将a操作产生的归一化区域的16个数值全部转化成2位的数据,同样在将b操作产生的归一化区域也转换成2位数据,再将这17个特征值数据转化成的34位数据作为三层神经网络处理的输入数据(如下图所示)。通过反向传播法(Back Propagation)来识别人脸表情。输入层数据的单元数目(unit number)是34,隐藏层的单元数目是由实验为提高人脸识别精度而决定的,输出层的单元数目是应该识别的面部表情的数目。

(4)Experiment and Discussion(试验及讨论)
为了估计该方法的识别率,选取了一名女性的中性、高兴、惊讶和悲伤表情的图像序列进行实验测试。将每种人脸表情的10张图像作为学习数据,每种表情的20张图像作为测试数据,因此总共是40张图像作为学习数据,80张图像作为测试数据。将通过10张中性人脸产生的平均人脸图像(Averaged Face Image)作为参照图像A,学习和测试数据采集的室内温度大约为302K,为了顺利的提取人脸图像,红外摄像机的检测温度范围为303-307.5K,a操作中应用于差值图像的2级和3级分块阈值分别为0.6K和0.9K。表情的诱发是一种有意行为(Intentional Action)             
神经网络方法的输入层\隐藏层和输出层的单元数目分别为34,17和4.下图描述了四种表情的图像实例。

a操作产生的16幅图像的归一化处理过程:值小于0.500,值0.5-101,值1-210,值大于211
b操作产生1副图像的归一化处理过程: 值小于0.500,值0.5-0.801,值0.8-1.210,值大于1.211

实验结果:

Happpy和supprise 识别精度在95%-100%
Neutral和Sad 识别精度在80-85%
平均识别精度为90%
另外通过查看未识别的Poorly识别图像发现其热分布同标准图的热分布有着不同的特征.原因可能是由于表情的不自然引起的.
此外由于面部表情石油提供着自己判断的,这可能对其表情的定义带来一定的模糊性.
实验结果表明该方法用于人脸表情识别还是值得推广的.
未来人脸表情识别发展的目标是不再依赖学习数据集
目前基于利用平均(参考)图像和测试图像间的热量差别进行表情识别的方法可以很容易的实现对不同表情的识别.
由于人脸的热量改变是由面部肌肉运动和由于心理和精神的改变引起的内部热量改变所引起的,区分这两方面的影响也是将来研究的目标之一。
实现红外图像和可见光图像的融合可以实现更加精确的人脸表情识别。
人脸表情变化的动态分析可以很好的解决以上提到的未来研究内容。
热图的处理是检测人的日常情感或思维关键。
5、 Conclusion(结论)
文章介绍了一种用于人脸表情识别的红外图像处理技术。该方法基于面部温度分布的二维检测。首先对输入的人脸正面图像在尺寸和位置上进行归一化处理,接下来测量未知面部表情图像同平均中性(标准)图像的局部温度差别,将由于面部肌肉重组和内部温度改变引起的局部温度改变作为神经网络方法的输入数据。四种表情的平均识别率可达到90%。
Posted on 2010-01-14 17:18  leivo  阅读(1910)  评论(0编辑  收藏  举报