资料

面向技能示范的多模态信息融合

面向技能传授的交互知识生成及引入

知识技能与现实操作的映射和互驱动

 

深度学习兴起后, 深度网络结构可以自动抽取通道特征, 其自动获得的特征在用于识别和分 类方面, 甚至表现出比人工精心设计的特征更好的性能

总的说来, 针对不同交互任务, 如何在 通道加工过程中发现更好的特征表示是交互意图理解的一个重要因素.

多通道信息融合有利于通过记忆形成理解, 反过来继续促进 记忆

Human-computer ineraction

基于深度学习技术的多模态信息融合

多模态自然人机交互是下一代人机交互的发展趋势。融合视觉、听觉、触觉、嗅觉甚至味觉的多模态交互方式,其表达效率和表达的信息都优于单一的视觉或者听觉模式。

因此有向图模型是人机交互任务管理的重要工具之一

 

 

基于强化学习的技能传授的交互知识生成及引入

Learning by demonstration

基于示范的学习

 

语义和时空一致性

 

基于沉浸式遥现技术的操作示范训练方法

 

面向技能传授的多模态消歧技术

 

基于机器学习的多模态相互消歧(mutual disambiguation)技术

 

沉浸式远程操作的优点是提供给机器人(与人类相比,他们的社交,情感,语言和感官运动能力都是贫困的)认知控制应该充分利用可用的机器人特征:人体大脑体现在机器人中。这解决了引言中已经勾勒出的两个主要问题,这些问题激发了人类演示对社会HRI培训的兴趣日益增加:

飞行员执行智能感知电机映射,正确地缩放到机器人形态和动态能力。在模拟HRI中监控人类行为。 在这些被动体验期间由机器人收集的多模式感觉运动数据非常接近于在AI能够再现高水平认知行为期间将在自主行为期间经历的那些数据。

这些问题可以通过技术和人为因素得到缓解:

(a)     遥操作平台应以最小的认知负荷为飞行员提供高质量的自我定位,所有权和代理感,特别注意我们在图1中实现忠实的凝视控制和遥操作平台的努力;

(b)     飞行经验还应该通过今天机器人所期望的“超人”能力来增强 - 特别是在情节,自传和百科全书记忆方面。

 

机器人可能在这里被视为虚拟现实,物联网和HRI之间的网络物理门。

HRI和VR

人类和机器人之间的虚拟,增强和混合现实(VAMR)交互领域 - 不仅考虑机器人作为增强现实的一种方式,而且考虑通过扩展的身体感知和作用于网络物理空间的方式 - 为研究和 AI和HRI领域的技术, 通过使人类和机器人分享世界,身体和认知以及“游戏化”制造业的位置。这一趋势的症状是最近举办的研讨会,作为两个社区重要活动的卫星:

 

交互式多模态行为建模

 

基于沉浸式遥现技术的操作示范训练方法

收集和建模多模态交互数据

沉浸式远程操作的优点是提供给机器人(与人类相比,他们的社交,情感,语言和感官运动能力都是贫困的)认知控制应该充分利用可用的机器人特征:人体大脑体现在机器人中。

 

基于沉浸式遥现技术的操作示范训练方法是指建立人机交互和增强/虚拟现实领域的联系。使用沉浸式远程操作来教授类人机器人多模式社会技能。为此,我们首先要收集交互多模态数据。机器人暂时没有此类技能,通过人类远程操纵机器人来解决或者粗略的自主行为模型。机器人行为(比如口头输出、抓取、凝视、点头)等由人类远程操纵控制。人类通过机器人的传感器提供给他/她的感官信息,为机器人提供最佳行为。

沉浸式远程操作的优点是提供给机器人(与人类相比,他们的社交,情感,语言和感官运动能力都是贫困的)认知控制应该充分利用可用的机器人特征:人体大脑体现在机器人中。人类执行智能感知电机映射,正确地缩放到机器人形态和动态能力。在模拟HRI中监控人类行为。 在这些被动体验期间由机器人收集的多模式感觉运动数据非常接近于在AI能够再现高水平认知行为期间将在自主行为期间经历的那些数据。

 

我们描述了在沉浸式增强和虚拟现实环境中进行3D多模态交互的方法,该方法考虑了信息源的不确定性。由此产生的多模系统融合了来自一组3D手势,口语和参考代理的符号和统计信息。参照代理使用可见或不可见的卷,这些卷可以附加到环境中的3D跟踪器,并且使用与它们相交的对象的带时间戳的历史记录来导出用于对潜在参照物进行排序的统计数据。我们讨论了系统支持这些模式和信息源的相互消歧的方法,并通过用户研究显示共同消歧占了成功的3D多模式解释的45%以上。随附的视频演示了系统的运行情况。

我们已经描述了一种架构,其中相互消歧可以支持沉浸式3D AR和VR环境中的多模态交互。该系统旨在揭示语义,手势和对象识别的最佳联合解释,给出语义和统计属性。为了验证我们的假设,我们设计并实现了基于该架构的测试台并进行了小型用户测试。初步结果表明,超过45%的系统成功表现是由于其相互消歧能力。这些结果表明,多模式输入的相互消歧可以起到如何产生一个比单个模态的成功可能更强大的系统的作用。这里描述的架构通过融合来自各种来源的信息来减少不确定性和模糊性,从而改进了3D多模式研究中当前最先进的技术。我们的基本架构是对先前报道的2D多模式交互的扩展,充分利用了额外的3D信息源(例如,对象识别,头部跟踪和可见性)。

 

1. INTRODUCTION

在3D世界中进行交互的技术通常来自直接操纵隐喻 - 为了对某事物进行操作,你必须“触摸”它。当要处理的对象已知并且手头并且用于选择对象和其他动作的装置相对简单时,这种交互方式很有效。不幸的是,3D交互经常会破坏所有这些规则 - 例如,感兴趣的对象可能是未知的或远距离的。为了解决这些问题,一些研究人员将直接操作的交互方式转化为极端,创建了具有许多按钮和模式的设备[8],任意可伸缩的“手臂”[25]和3D菜单[18]。但是,可能会有更多可能对对象执行的操作,而不是这些GUI可以实际提供的操作。我们认为,大多数先前的方法在过于贫困的通信渠道(3D手臂/手部运动)上放置了太多功能,并且通过结合多模式交互,各种交互功能的负担可以被卸载到适当的模态,例如语音 和手势,以协同的方式。特别地,通过将语音结合到界面中,用户可以描述看不见的/未知的对象和位置或调用功能,而她的手和眼睛可以参与某些其他任务。

然而,与直接操纵界面不同,多模式界面架构必须首先应对不确定性。识别器返回一组分类假设,每个分类假设被分配一个分数,例如后验概率。此外,语言是模糊的,因此即使单个正确识别的话语也可能导致多个假设。同样地,跟踪器具有错误,姿势是不确定的,它们的含义是模糊的,并且正确的姿势(例如,选择)可以具有多种解释(例如,正在被选择的内容)。鉴于所有这些不确定性,可能令人惊讶的是,支持语音和3D手势的少数(如果有的话)多模式系统能够直接处理该不确定性。为了解决这些问题,我们提出了虚拟现实(VR)和增强现实(AR)中的3D多模态交互的架构,并展示了如何通过融合从语音,手势和环境中获得的符号和统计信息来减少错误。

posted @ 2018-11-24 11:01  feifanren  阅读(79)  评论(0)    收藏  举报