EMER:一个全新的视角来看待多模态情感识别问题
2024-07-10,由中国科学院自动化研究所、清华大学自动化系所联合创建EMER,这个任务目的通过提供预测情感的详细解释来提高情感识别的可靠性和准确性。
一、引言:
多模态情感识别是人工智能中的一个活跃研究领域,其主要目标是通过整合声音、视觉和语言等多种模态来识别人类的情绪状态。尽管近年来取得了显著进展,但现有研究主要关注于收集更大规模和更真实的数据集以及开发更有效的架构。然而,由于情感的固有主观性,现有的数据集常常缺乏高注释一致性,导致现有数据集的标签可能不准确,给基于这些数据集开发的系统在实际应用中的高可靠性需求带来了障碍。
目前遇到困难和挑战
1. 多模态情感识别的挑战:
-
多模态情感识别是AI领域的一个活跃研究话题,旨在通过整合声音、视觉和语言等多种模态来识别人类的情绪状态。
-
现有研究通常假设基准数据集具有准确的情绪标签,并专注于开发更有效的架构。
-
由于情感的主观性,现有数据集常常缺乏高注释一致性,导致可能的标签不准确,从而影响模型在实际应用中的可靠性。
2. 标签歧义问题:
-
情感的固有主观性导致不同的注释者可能对同一视频分配不同的标签。
-
标签歧义导致现有数据集的标签可能不准确,给基于这些数据集开发的系统带来障碍。
二、我们来看一下EMER:
EMER(Explainable Multimodal Emotion Reasoning)是一个新提出的任务,目的提供情绪预测的详细解,只要预测情绪背后的推理过程是合理的,预测就被认为是正确的。
该任务构建一个初始数据集,包括从MER2023数据集中随机选取的100个非中性样本。
数据集的构建包括以下几个步骤:
-
线索标注:六个标注者随机分配,每个视频剪辑由三个标注者标注情绪线索。
-
线索总结:使用ChatGPT对标注的线索进行总结。
-
情绪总结:使用ChatGPT从总结的线索中推断情绪状态。
-
线索与情绪的结合:将情绪和线索结合成一个段落,手动评估推理过程的合理性。
提出AffectGPT模型:这是首个在情感计算领域提出的多模态大型语言模型(LLM),目的解决标签歧义的长期挑战,并为开发更可靠的技术铺平道路。
三、让我们展望一下EMER的应用
比如,我是一个初创企业的老板 ,工作压力很大,每天一睁眼,就是一堆等待处理的邮件会议和应酬。日程排得满满的,经常忙到连饭都顾不上吃。
晚上回到家,累得筋疲力尽,连和家人说话的力气都没有。工作压力让我经常失眠,第二天又带着疲惫的身体去上班。
当我使用了集成了EMER任务的智能助手,能够识别和响应我的情绪状态
早上,当我醒来时,智能助手会用温暖的声音对你说:“早上好,老板!你看起来精神不错,今天是个美好的一天,保持开放心态,携手伙伴,探索合作新模式,共创商业新篇章”
当我在处理工作时,智能助手会根据我的情绪状态,适时地给你提醒:“老板,你已经连续工作了几个小时了,要不要先休息一下,喝杯咖啡?我可以帮你放一首轻松的音乐。”
在我需要做决策的时候,智能助手会根据你的情绪状态,给你提供建议:“老板,我注意到你现在可能有点焦虑。在做决策之前,你可以尝试做一些深呼吸练习,或者出去散散步,换个心情。”
晚上回到家,智能助手会关心地问你:“老板,你今天辛苦了。晚上有什么计划吗?我可以帮你准备一个放松的晚间活动,比如帮你预约一个按摩,或者为你准备一个热水澡。”
在我感到压力特别大的时候,智能助手会主动提供支持:“老板,我注意到你最近压力有点大。你可以尝试一些放松的技巧,比如冥想或者瑜伽。我可以帮你找到一些教程。”
通过智能助手的这种情绪识别和个性化响应,我感到自己的情绪得到了更好的照顾,压力也得到了有效的缓解。
总之,有了这个懂得“察言观色”的智能助手,我的工作生活变得更加轻松愉快。