论文阅读:Robots, Pancakes, and Computer Games: Designing Serious Games for Robot Imitation Learning
标题:Robots, Pancakes, and Computer Games: Designing Serious Games for Robot Imitation Learning
Benjamin Walther-Franks1, Jan Smeddinck1, Peter Szmidt1, Andrei Haidu2, Michael Beetz2, Rainer Malaka1
0. 摘要
自主操纵机器人可以作为家庭中的交互代理而成为有价值的辅助工具,但是事实证明,对它们的行为进行编程非常困难。 模仿学习使用人类演示数据来建立机器人的行为模型。 为了涵盖广泛的行动策略,需要来自许多个人的数据。 获取如此大量的数据可能是一个挑战。 因此,该领域中的数据捕获工具必须实现良好的用户体验。 我们建议使用人类计算游戏,以收集有关人类手动行为的数据。 我们通过通过自然用户界面操作的策略游戏演示了该想法。 将游戏用于执行动作与在虚拟环境中演示动作之间的比较表明,人们在玩游戏时互动时间更长,体验也更好。
1. 介绍
HCI已从主要关注桌面交互的位置转移到了无处不在的交互,尤其是具体化的计算机工件。随着我们家中机器人的出现,计算已经超越了对人机交互的经典理解。家用机器人的未来构想了我们日常生活中的主动和智能伴侣,并探索了许多拟人化机器人(如NAO机器人)[24]。研究人形机器人的形状因数很重要,因为当人们要“生活”在相同的环境中时,它很可能会被人类接受[13]。除了熟悉的机器人外观外,类人机器人的行为还促进了人机交互和合作,因为这需要较少的人为调整和学习。即使机器人四肢和关节的自由度可以允许其他非人甚至超人的动作,让机器人以与用户的心理模型相对应的方式行动通常是更好的选择。然而,事实证明,编程机器人以类人的方式掌握日常活动是一项巨大的挑战[3]。如今,机器人只能在狭窄的条件下解决任务。许多看似平凡的日常任务仅被模糊地描述,并且表现出很高的变化性。几十年来,解决人类日常活动所需常识知识的人工智能愿景一直未得到解决[19]。
近年来,已经建立了用于家庭任务的原型解决方案,例如,机器人制作煎饼[3]或烘烤饼干[5]。必须通过在劳动力和成本密集型过程中的知识获取和机器学习,将在各种环境中解决此类任务所需的必要知识输入到系统中。由于大多数人都是从事此类任务的专家,因此从人源中获取机器人知识的潜力很大。如果人们执行所需的动作(例如做煎饼),则可以对其进行跟踪,分析,然后为机器人的手臂和手的动作建立模型[20,23]。在这种用于机器人编程的模仿学习方法中,挑战在于从人类那里收集大量运动数据以解决某些问题,而条件却会系统地变化。显然,这是繁琐的工作。很难激发人们以各种尺寸和高度的炉子来回移动炉子上的锅子。
使用用户在其中与模拟任务上下文进行交互的虚拟环境,可以通过记录用户输入来生成人体运动数据[16]。 优点是虚拟世界是完全可观察到的,演示与现实世界的约束条件或安全问题无关。 游戏可以增加在这种环境中执行重要任务的动力,从而有可能增加演示次数,从而增加运动数据和变化数据的数量。 它们还为模仿学习提供了更多好处:在游戏中,可以引入目标来影响玩家的行为,例如激发他们的最佳表现。 此外,游戏中均衡的挑战会增加玩家的抗挫折感。 这种针对任务失败进行设计的能力对于机器人编程至关重要,而游戏是一种获取失败行为数据的简便且可控的手段。
在本文中,我们提出了一种用于模仿学习的知识获取工具的人类计算游戏方法。 让人们成为日常活动的专家以在具体化的游戏中执行动作,可以提高示威者的积极性,并鼓励他们提供高质量的数据。 游戏设计的自由度允许定制玩家的行为以产生期望的结果,并允许从成功或同样重要的不成功行为中获得各种人类动作数据。
我们提供了一个带有全手动作输入的塔防游戏示例应用程序。 用户非常有动力去玩游戏,从而贡献自己的知识。 通过这种设置,用于对机器人进行编程的数据获取将转换为游戏交互和玩家体验的HCI问题。 我们的研究表明:1)在非游戏虚拟环境中演示任务比在非游戏虚拟环境中演示更好地自我报告的体验; 2)运动数据具有成功用于机器人模仿学习的质量。
通过本文,我们不仅为徒手运动控制严肃游戏的成功设计做出了贡献,而且还展示了一种如何利用现有游戏设计知识来提高运动数据采集工具有效性的设计方法。 此外,本文为家庭环境中的类人机器人对人机交互做出了贡献。 我们建议使用游戏性互动[8]作为建立更现实和可接受的机器人同伴的手段。
相关工作
机器人编程
模仿是个人观察并复制他人行为的行为。 模仿学习或机器人演示编程(PbD)[4](也称为从演示学习[2])是一种通过观察他人如何学习和发展新技能的手段。 它是一种使机器人能够自主执行新任务的技术。 当观察成功或失败的例子时,可以通过从观察到的成功解决方案开始搜索(局部最优),或者通过消除搜索空间中的失败来降低学习空间的复杂性。
PbD学习问题可以分为两个基本阶段:收集示例和推导策略[2]。 专注于收集阶段,存在执行和记录演示的多种技术,范围包括人类操作员移动机器人,然后通过记录遥控操作命令来记录自己的动作,以及观察示威者使用自己的身体执行行为。 此外,控制级别可以从用于动作控制的低级动作,基本的高级动作(动作原语)到复杂的行为动作而变化。
在Haidu等人的工作中[11],作者学习了一种故障检测器模型,以使机器人能够识别当前动作将导致故障的点。 通过运行给定操作的多个情节(成功案例和失败案例),从虚拟环境中收集用于学习的数据。 在具有逼真的物理引擎的机器人模拟器上构建的虚拟环境,可产生精确,逼真的数据。 虚拟场景具有充分观察世界的优势; 一个可以完全代表所有模拟对象的运动和状态。 即使运动序列比较简单,它们也可以包含有价值的信息(例如,用于低级运动控制)。
其他研究人员也一直在使用仿真环境[25]。 尽管就所收集数据的准确性而言,结果令人鼓舞,但这些模拟器的设计目的并不是吸引普通大众,由朴素的用户操作或通过引入游戏机制来激发动力,而不仅仅是互动虚拟游戏的趣味性。 世界。 为了收集可用于构建大规模行为模型的大量不同数据,此类模拟必须能够在消费类硬件上运行,并具有激励性结构,以使玩家动起来以执行多项动作。
人类计算游戏
在过去的几年中,将娱乐性和游戏性元素[8]引入到集体情报应用中一直是一个新兴的热门话题:人工计算(HCG)游戏(HCG)是一种集体情报的形式,参与者没有获得报酬,而是自愿捐款基于游戏的交互中的数据或知识块。 HC类似于众包,其中传统的人类工人被公众成员代替,但区别在于HC人类计算机(通常也来自公众)在这些领域挣扎的领域取代了数字计算机[21]。具有目的的此类游戏的第一个突出示例[27]用于图像标记任务。结果表明,非常简单的休闲游戏激发了众多用户的兴趣,并且有可能将他们的个人贡献汇总为一致的集体智慧。近年来,已经开发出了人类计算游戏,用于进一步的标记任务[14],计算生物学[6],问题解答[1]以及许多其他用例[28]。
机器人编程的人类计算游戏
为了构建人类计算游戏的设计方法,Krause和Smeddinck [14]提出了四个类别:识别(可以转化为HC应用程序的任务),动机(激励公众贡献时间和精力的设计机制)。努力),观察(用于在应用程序中制定解决方案并观察人群中每个成员所采用的方法的设计方法)和评估(用于汇总,分析和解释潜在大量人群贡献的设计方法);或简称IMOE。值得注意的是,此结构类似于在PbD中收集(IMO)和派生(E)的一般步骤。因此,我们认为PbD是人类计算的特例,因此人类计算游戏的方法很可能适用于PbD。到目前为止,两个社区都可以从旨在将他们的方法结合在一起的研究中获利,这些方法到目前为止已经在几乎完全独立的子社区中讨论过。尽管众包已经为PbD确立了自己的地位,但它很少嵌入游戏环境中(有关最新概述,请参见[10])。
Krause和Smeddinck考察了典型的HC任务的类别,将其作为识别考虑的一部分,描述了四个类别,每个类别都利用了一种特定的人类能力:美学判断,做出直观决策,上下文推理以及与物理世界的自由交互(作为实施例问题提及)。后者为本文提出的研究应用领域提供了一个匹配类别(利用手部动作和动作)。丰富的人类知识对人类而言是隐含的,但很难明确形式化,这使得该类别成为人类计算的强大候选者。但是,到目前为止,大多数人类计算游戏都没有考虑与环境进行物理交互时所使用的具体人类知识。映射应用程序中存在一些方法[18,26]。但是,它们需要所有人类贡献者付出大量的体力劳动,并获得了人体位置的粗略度量,而不是人类体现的互动的复杂细节。
来自相关领域(例如游戏化)的方法已经研究了将匹配的游戏机制匹配到广义任务的方法。 Flatla等人[9]解决了游戏化的校准任务,例如屏幕校准或呼吸胸部应变传感器校准。 他们开发了一个设计框架,用于识别校准类型及其背后的基本任务,以及如何将这些任务与基本游戏机制相匹配。 他们使用此框架设计了三个校准游戏,并且能够显示出更多的用户动力。 他们还讨论了标准校准和游戏化校准之间数据质量的差异。 但是,他们的方法尚未与PbD的相关领域相关联,并且他们并未专注于具体的交互作用。
设计方法:厨房塔防
主要设计目标是通过将执行平常的手动操作(物理的或模拟的)的经验转化为更有趣的活动来激励人们演示手动任务。 在讨论如何映射目标域和源域之前,我们将制定策略。
设计策略
为了达到这个目标,我们的设计策略是在设计空间的两个维度(游戏/游戏和零件/整个)的“游戏”和“整体”两端进行定位的[8]。
Gaming vs. Playing
机器人社区已经探索了用于基于模拟虚拟环境的运动数据采集的有趣工具[11,16]。 它们提供了一个完全可观察的世界以及不受现实世界限制的安全性的好处。 但是,将其嵌入基于规则的游戏系统中而不是单纯的娱乐性环境具有两个明显的优势。 首先,可以在游戏机制中设计任务演示,以便通过游戏规则和关卡设计更隐性地摆放任务。 其次,增加游戏美学[12](例如挑战和叙事)可以改善体验; 随着时间的流逝,烘焙虚拟煎饼的乐趣将逐渐减少,而精心设计的游戏则会吸引数小时。
Parts vs. Whole
针对既定目标的设计可能涉及(整个)HCG,也可能将游戏设计元素(各部分)引入运动数据采集工具。 后者可以通过向现有应用程序中添加游戏元素(游戏化)或向现有游戏中添加有目的的元素来实现。 可以将此决策建模为设计空间中的第三个维度(如果不是完全正交的话)。
Games vs. Serious Applications
这个轴线从一个极端开始,即将越来越多的游戏元素添加到“严重”应用程序中,再到相反的极端,该极端开始于功能完善的游戏,并增加了越来越多的“严重”元素(图2)。我们的方法面向这一领域的“游戏”端,以吸引普通人及其对游戏构成的理解。尽管游戏化可以成功地用来增加执行其他乏味或艰巨任务的动力[9],但我们出于以下原因选择使用完整的游戏机制来创建完整的游戏体验:该方法使我们能够使用整个游戏概念来利用现有关于工作游戏机制的设计知识。而且,它增加了创造长期动机的可能性,而不是快速设计的休闲游戏中常见的短暂参与。此外,一旦找到了可靠的游戏设计来提取特定类别的人类行为,就可以将其用于整个任务域,例如任务区域。所有基于工作台的操作任务。
Task Domain
实验
我们实验的控制条件向参与者提供了没有动机或背景的基本操作说明。 我们从任务域烹饪中抽象出来,以便为游戏场景提供可概括的,中立的对应内容。 这包括两个设计选择,分别可能影响到经验丰富的存在和自主性的方面。 首先,上下文可以给这样的场景以意图:烘烤虚拟煎饼可能更能激发动机,并且可能会比移动多维数据集更多。 第二个原因是,仅遵循指示就可以消除玩味虚拟任务探索的创造潜力和经验丰富的自主权-不同的参与者可能会制定不同的行动策略以达到相同的目标。 但是,如果没有游戏机制和叙述的指导作用,在这种自由设计中很难控制动作频率。 我们将继续探讨这些细微差别对未来工作的影响。
可扩展性
我们已经说明了所选的游戏设计方法适用于做煎饼的烹饪子任务。 这可以轻松扩展,并扩展到具有类似特征的其他任务域。 策略是一种变化很大的游戏类型。 对于TD而言,更多的塔类型,不同的级别,不同的敌人抵抗力和战术只是游戏设计如何建模更多不同和复杂动作的几个例子。
体现人类计算游戏HCG
HCG可以通过现代的自然用户界面捕获运动行为的复杂细节,从而整合体现的知识。 游戏意图到任务域动作的映射是一种灵活的设计决策。 但是,由于存在实施例问题,用户输入到动作的映射(也针对PbD [2]进行了讨论)可能非常直接,在派生步骤中需要不太复杂的方法。 因此,将HGC与具体的任务知识和模仿学习结合使用是一种特别有前途的方法。