■ 中科院自动化所 陶建华 谭铁牛

    现在有些计算机已经能部分听懂人类的话,并且会按照人类的命令去执行某些动作。但命令都是生硬的,不带任何感情色彩。什么时候计算机能看懂人的“脸色”?能够根据与其打交道的人的情感变化来调整自己的应答和动作?

传统的人与计算机之间的交互,多是借助于被动式的中介手段(如键盘、鼠标等),通常我们更看重交互数据的准确性,却容易忽视交互过程中所带有的情感因素。事实上,人与人的交互会不自觉地就带有情感因素,因此在人机交互中,人们也会很自然地期望计算机具有情感能力,使人机交互真正做到和谐自然。因此研究机器如何处理情感被列入具有挑战性的课题,并且被人们称为情感计算。情感计算就是要赋予计算机类似人的观察、理解和生成各种情感特征的能力,通过对情感特征的分析和处理来获取对情感状态与生理和行为特征相互关系的高层次语义上的解释,最终能像人一样进行自然、亲切和生动的交互。

尽管情感计算概念提出来的时间很短,但随着普适计算和可穿戴计算日益受到重视,为情感计算提供了一个极好的平台,它们与用户“形影相随”的亲密接触为情感信息的实时获取提供了很大方便。目前,国内中科院计算所、中科院自动化所、清华大学、北京工业大学、北京交通大学、东南大学、浙江大学等高校和研究机构都开展了这方面的研究工作,而国外的MIT、CMU、伊利诺伊州大学、剑桥大学、瑞士日内瓦大学、日本ATR等也都做了相当多的工作。此外,微软、IBM、英国电信、索尼等公司也都相继成立了情感计算和智能交互的研究小组。

情感计算步入日常生活

神经生理学界最近的研究成果表明,人在决策时掺杂太多的感情因素固然不可,但若丧失了这种感情成分,决策同样难成。当大脑皮层和边缘系统之间通道缺损,人会由于缺乏感情而导致决策能力下降。人类的智能不仅应该具有正常的理性思维和逻辑推理能力,也应该具有正常的情感能力,它与理性思维和逻辑推理能力是相辅相成的。

今天人们开始用各种计算机手段来分析人类智能,与此相对应,对人类情感的研究也不应该只是停止在理性认识的层面,甚至在基于规则的人工智能推理系统中,缺少情感已经成为制约其发展的因素之一。现在有些人工智能设备已经能够理性地思考不少问题,如果再赋予这些机器以感情,人工智能才更加完整。

自20世纪60年代以来,图像、语音、自然语言处理等相关领域的研究虽然取得了长足的发展,但这些技术的推广和应用却一直受到较大的限制,原因之一就是缺乏高效的高层语义理解和概念解析模型。通过对情感处理的研究能够使计算机更为贴近人类的心理状态,将情感状态的识别与传统图像、语音、语言等方面的模型进行结合,将能为计算机的概念解析提供重要的辅助作用。同时,对情感计算的研究还将建立一些新的生物特征以及行为特征的参数化模型和处理思路,从而大大促进传统图像、语音、语言等相关学科的研究。此外,情感计算也将带来更为和谐的人机交互方式。

国际上一些著名高校和研究机构,都已相继成立了针对情感计算的研究小组,并将情感处理融入用户接口,构筑更为友好的交互和生活空间。

例如,在信息家电和智能仪器中,通过增加自动感知人的情绪状态的功能,可以为人们提供更好的服务;在计算机检索系统中,利用情感的概念解析功能,可以提高智能信息检索的精度和效率;在远程教育平台中,加入情感因素,可以增加教学效果;在虚拟现实应用方面,利用多模态的情感交互技术,可以构筑更贴近人们生活的智能空间和虚拟场景等。此外,情感计算还可以应用在数字娱乐、机器人、智能玩具等相关产业中,以实现更为拟人化的系统风格,构筑更为逼真的场景。

在国内,中国科学院自动化研究所模式识别国家重点实验室围绕着情感计算及其他相关基础学科的研究,已经做出了一定的阶段性成果,并提出多种实用算法和平台。它还在2003 年12月成功发起和组织了第一届全国情感计算及智能交互学术会议,2005年10月,该会议将正式变更为国际会议,为国内外专家在此领域提供相互交流的平台。

不过综观已有的研究工作,现有研究还主要局限在语音、身体语言等具体而零散的领域。由于缺乏较大规模的情感数据资源,没有有效的融合多特征情感计算的机制和相应的学习和控制算法,以及缺乏对自然场景适应的能力,使得计算机一直难以准确地推断和生成一个人的情感状态,并进行真正有效的情感交互。作为一个整体,情感计算的诸多理论性问题还没有得到很好的解决。

值得一提的是,近几年来,与情感计算和多通道用户界面有密切关系的另一个新的发展方向——普适计算与穿戴计算已经在设计上巧妙地成为我们日常生活的一部分,它们与情感计算的有机结合,将使我们的生活丰富而多彩。

什么是情感计算?

有关情感的论述可以从20世纪末的Ekman(1999年)追溯到19世纪末的William James(1884年)。一般情况下,“感情”不会与无生命的机器联系在一起。从感知信号中提取情感特征,分析人的情感与各种感知信号的关联,只是国内外近几年刚刚兴起的研究课题。

人的情绪与心境状态的变化总是伴随着某些生理特征或行为特征的起伏,它受到所处环境、文化背景、人的个性等一系列因素的影响。研究机器如何处理情感,我们首先必须深入探讨人与人之间的交互过程。那么人是如何表达情感又是如何精确地觉察到它们的呢?

表达情感是通过一系列的面部表情、肢体动作、语音等来进行的,而感知情感的变化则是通过视觉、听觉、触觉等手段来实现。其中,视觉觉察主要通过对面部表情、姿态等肢体动作的观测来进行;听觉觉察主要通过对语音中表现出来的言语声调表情的观测来实现;而通过对爱抚、冲击、汗液分泌、心跳等人的行为和生理状态的感知则是实现触觉觉察的主要途径。

人的情感状态(如紧张、激动、恐慌、愉快、愤怒等)往往伴随着多个生理或行为特征的变化。另外,某些生理或行为特征的变化可能起因于多种情感状态。由于情感特征如此复杂,要准确地判定一个人的情感状态,必须同时利用多种生理或行为特征信息以及环境信息。

情感计算的研究重点就在于通过各种传感器获取由人的情感所引起的生理和行为特征信号,建立“情感模型”,从而创建一个具备感知、识别和理解人类情感能力的,并能针对用户的情感做出智能、灵敏、友好反应的个人计算系统,缩短人机之间的距离,营造真正和谐的人机环境。情感计算是一个高度综合化的研究课题,到目前为止,大部分的研究工作还均处于起步阶段。一般来说,人机情感交互的过程包括:情感信息的获取及参数化建模、情感的识别、情感的理解和表达等过程。

情感信息获取是基础

情感信息的获取是进行情感计算研究的基础。要想处理情感信息、建立情感的参数化模型,首先必须确定情感信息的表现形式。通常的做法是根据抽取出来的情感特征对所表现的情感进行分类,将其归属于若干个离散的类别;也可以将抽取出来的情感特征映射到多维空间中进行表现。具体说来,情感的表现涉及到如下几个层面。

人脸表情细微特征的跟踪与描述

目前表情参数的获取,多以二维静态或序列图像为对象,对微小的表情变化难以判断,导致情感表达的表现力难以提高,同时无法体现人的个性化特征,这也是表情识别中的一大难点。另一方面,以目前的技术,在不同光照条件和不同头部姿态下,也不能取得满意的参数提取效果。

由于三维图像比二维图像包含更大的信息量,可以提供鲁棒性更强、与光照条件和人的头部姿态无关的信息,用于人脸表情识别的特征提取工作更容易进行。因此,目前最新的研究大多利用多元图像数据来进行细微表情参数的捕获。该方法拟综合利用三维深度图像和二维彩色图像,通过对特征区域深度特征和纹理彩色特征的分析和融合,提取细微表情特征,并建立人脸的三维模型,以及细微表情变化的描述机制。

Ekman在表情参数的基础上,建立了面部运动编码系统(Facial Action Coding System),它将人的面部活动分成许多运动单元(Action Units),利用这些运动单元来描述面部表情。Ekman考虑了六种表情:喜悦、愤怒、惊讶、厌恶、恐惧和悲伤,并且把其他表情都归纳到这六种表情之中。国内外的许多科研单位也在相关领域做了很多有益的工作。例如,在人脸检测和识别方面,清华大学和中科院自动化所分别提出了基于模板的匹配方法,中科院计算所提出了基于线性子空间的分析算法,北京工业大学提出了基于三角模板的算法等。

手势跟踪与建模

由于手势本身具有多样性、多义性、时间和空间上的差异性等特点,加之视觉本身的不确定性,使之成为计算机视觉中一个难点。目前的建模方法主要有基于表观的手势建模和基于3D的手势建模两种。这两种建模方法各有特点:基于表观的手势模型建立在手的图像的表观之上,它通过分析手势在图像里的表观特征去给手势建模;而基于3D的手势建模方法则从人手的结构出发,对手的姿态以及运动进行建模。由于上述原因,加上基于3D的手势模型参数多,计算复杂性高,为抽取模型参数而使用的许多近似过程可能导致模型参数的估计不可靠。另一方面,基于表观的手势模型的计算复杂性低,易于达到实时。

人体姿态跟踪与建模

人体的姿态和运动主要由人体关节的位置及其随时间的变化所确定。为了实现基于图像序列的人体运动分析,如何从给定的图像信息出发确定人体的诸关节位置信息是关键。现有的用于确定人体关节位置的方法有很大局限性。例如,一些算法要求:人体所穿着衣服的颜色随部位的不同而不同;人体运动方向与投影方向平行;背景为单一背景;各个关节的位置可在图像中由手工进行标定等。其中有些要求在实际中是无法满足的。

因此,较新的研究多采用一种基于人体轮廓的关节位置确定方法。该方法首先从图像中提取目标人体轮廓,在此基础上,利用能量函数抽取与人体真实骨架相似的虚拟骨架。然后,在所抽取的虚拟骨架的基础上,利用人体解剖学的知识确定关节的位置。该方法有如下优点:无需限制研究对象的运动和颜色信息,自动化程度较高;同时,由于采用的能量函数对噪声有很好的抑制作用,对人体轮廓提取的精度要求较低,算法在复杂的背景下也具有较好的性能。

此外,还有些研究人员通过辅助设备,如电磁感应器、光学反射标志点等,使计算机能够更为精确地捕获面部和肢体的快速运动数据。

情感语音声学参数的自动分析

通常情况下,影响情感的语音声学参数可以被分为:韵律类、音质类和清晰度类三类。对语音的研究将首先细化其参数的组成,通过融入音色、个性化韵律特征等因素,构筑声学特征自动分析平台。其研究内容包括:声道模型参数自动提取、音质参数的分析和提取、韵律参数的分析和提取等。例如,美国MIT的Cahn将情感语音的声学参数,归纳到基频、音域、语速、音强等参数上面。

对情感参数的提取一直是计算机领域研究的重要课题,相对情感计算的要求来说,目前可获取的信息还只能用于信息检索和一般性特征识别的研究上,对于复杂的情感变化,这些方法还显得较为粗略。例如,在语音的情感参数获取中,由于忽视了大量的即兴口语现象和声道变化现象,使它在情感理解和表达中受到较大限制;在面像和姿态的情感参数获取中,除了需要进一步提高参数提取精度和效率外,如何提取更为细致的、与身体语言相关联的情感信息,尤其是细微表情参数的获取和处理,也是亟待解决的一个难题。此外,缺乏动态情感信息的描述机制,也是制约现有的情感参数化模型不是非常成功的主要因素之一。因此,如何细化,并融合这些信息,以及如何进行动态情感信息的描述,提高算法对自然场景的适应和实现高鲁棒性都是需要研究的重点。

情感的识别

在情感识别的综合模型研究方面,美国MIT的Picard教授是较早从事此项技术的研究人员,并进行了积极而有效的探索。在语音、人脸表情等具体领域,亦有较多人投入研究,现有的技术几乎涵盖了模式领域中的各种常用方法,如统计方法、神经网络模型、SVM、HMM模型等。然而,已有的研究由于受到语音、面像、姿态、身体运动等相关情感信息的捕获技术的影响,多基于静态的情感信息处理,较少考虑动态特征以及外界环境因素和不同人特性的作用,同时缺乏大规模的情感数据资源,也使得有关的算法和模型一直难以得到有效的验证和推广。通过对动态场景描述方法和自动学习算法的研究,从多特征融合的角度,实现情感识别和理解,促进情感计算的研究深度,这是情感处理研究中的重要突破点之一。图4示出了一般的情感状态识别流程。

情感的理解

情感的理解实际上就是一个与认知理论融合的过程,通过识别模块获得用户当前的情感状态后,情感理解模块将使用和处理这些信息,并整合关于用户的环境和前后关系信息,建立合适的模型来生成适当的回应。

情感理解与智能交互技术是情感交互过程的重要组成部分。生理学的情感理论表明:情感是人对以往情感反应的认知和解释。心理学家以及从事认知科学研究的学者,已经进行了许多尝试。其中较为成功的就是将情感与人工智能中的智能体(Agent)研究相结合,通过建立基于OCC模型和操作制约理论的情感智能体,来模仿智能系统与环境的交互过程。在情感的描述上,他们采取把OCC模型的22种情绪同基本情绪理论的6种情绪结合起来的方式。在该模型中,情感智能体(如图5所示)接收一些刺激,然后通过操作制约函数来产生情感知识。随着该过程不断地反复,智能体便能获得越来越多的情感信息。进而,将其与虚拟现实等人机交互过程进行紧密的结合,以实现具有情感的人机交互过程。

情感的表达

情感的表达是计算机拟人化特性最为生动的体现。目前的研究集中在情感语音合成和情感面像合成等领域。例如:在情感语音合成上,通过在语气的运作上,加入情感控制参数,增加了语音合成的表现力;在人脸上附加表情生成,使得其表达的含义更生动和精确。然而,综观已有的表达系统,多局限在语音合成、面像和姿态合成的具体实现上,在多模态情感表达方面,涉及并不多。有关情感信息的同步和综合控制建模等方面更是没有得到很好的解决。例如,目前已有的情感表达多通过规则来驱动,缺乏有效的情感参数预测机制,在多数情况下,情感表达缺乏灵活性,尤其是缺乏适应新环境的能力。因而,有必要在情感数据分析结果和学习算法的支持下,进一步细化情感表达的参数化模型,通过和情感理解技术的融合,深入进行多模态的情感表达的理论研究。(本文中出现的图片,除特别指明出处的外,其余均为中国科学院自动化研究所模式识别国家重点实验室的研究成果。)

Posted on 2010-09-03 10:06  leivo  阅读(958)  评论(0编辑  收藏  举报