机器人演示学习
接口演示
用于提供演示的接口在收集和传输信息的方式中起着关键作用。我们区分出三个主要趋势
A)直接记录人体运动。当只对运动的运动学感兴趣时,可以使用任何现有的基于视觉、外骨骼或其他可穿戴运动传感器的运动跟踪系统。图6显示了一个使用视觉跟踪行走过程中全身运动的例子。首先利用人体模型从背景中提取人体运动,然后将其映射到位于日本京都ATR的人形机器人DB中。
这些跟踪人体运动的外部手段返回了关节角位移的精确测量。它们已被用于各种工作的LfD - PbD的全身运动[Kulic et al. 2008;Ude等人2004年;Kim等人,2009]。这些方法的优点是允许人自由移动,但需要良好的解决对应问题。通常情况下,这是通过人类和机器人关节之间的显式映射来实现的,但是如果机器人(例如六足机器人)与人类的关节有很大的不同,这就会非常困难。
B)动觉教学,机器人在人的指导下完成任务。使用这种方法,不需要明确的物理通信,因为用户用机器人自己的身体来演示技能。它还提供了一个自然的教学界面来纠正机器人复制的技能,如图1和图8所示。在后者中,皮肤技术用于学习触摸接触如何与手头的任务相关,提出了如何区分触摸是任务的一部分,那些是教学的一部分的问题(Sauser et al. 2011)。
动觉教学的一个主要缺点是,人类经常必须使用自己的自由度来移动机器人,而不是他们试图控制的自由度。如图8所示,当人类必须使用双手来移动一些机器人手指时,出现了这个问题。类似地,在图1中,老师需要用两只手臂来移动一只手臂。通常需要多肢同步的任务是很难从运动学上传授的。一种可能性是循序渐进地进行,先教右手的动作,然后在机器人用右手重复动作时,教左手的动作,但这个过程往往很繁琐。
C)身临其境的远程操作场景,人类操作员只能使用机器人自己的传感器和效应器来执行任务。动觉式教学将用户限制在机器人自身的身体内,沉浸式远程操作还试图将用户的感知限制在机器人的身体内。远程操作本身可以使用操纵杆或其他远程控制设备,包括触觉设备。后者的优点是,它可以让教师传授需要精确控制力的任务,而操纵杆只能提供运动学信息(位置、速度)。
遥操作的优点在于它不仅完全解决了通信问题,而且允许远距离训练机器人。由于教师不再需要靠近机器人,它很适合教授导航和移动模式。例如,在(Peternel and Babic 2013)和(Babic et al.2011)中,一个人形机器人通过人类演示学习平衡技术。设计了一个附着在演示机器人躯干上的触觉界面,以传递机器人所受的扰动,并允许教师进行适当的调整。演示者的运动立即在类似的机器人运动中被重新转录,并用于训练基于感知力的运动模型。
然而,远距操作更多的是单独用于传递运动的运动学。在[Abbeel et al. 2010]中,直升机的杂技轨迹是通过记录由专家飞行员遥控时直升机的倾斜和平移运动来学习的。在[Grollman,在詹金斯的指导下,人类用操纵杆引导机器狗踢足球。远程操作的主要缺点是教师经常需要培训来学习使用远程控制设备。此外,对于高自由度机器人,遥操作界面可以是高度复杂的,如一个完整的外骨骼。
每个教学界面都有其优缺点,可能适合不同的任务。一些工作已经开始研究如何结合使用这些接口来利用每个模态单独提供的互补信息,例如(Sauser等,2011)。
Ways to Solve LfD - PbD
当前方法编码技能通过最小的致命剂量- PbD可以大致分为两种趋势:一个低级的技巧,采取的形式感觉和运动之间非线性映射信息,技能的高层表示,分解action-perception单位的技能在一个序列。
Low level learning of individual motions
单独的动作/动作(例如,榨橙汁,或把它扔掉,或将液体倒入图1所示的杯子中)可以分开教,而不是一次性教。然后,人类老师会提供每个子动作的一个或多个不同于其他的例子。如果学习是从观察一个动作/动作的单一实例开始的,我们称之为一次性学习(Wu和Demiris 2010)。可以在(Nakanishi et al 2004)中找到学习运动模式的例子。不同于简单的记录和播放,这里的控制器以原始运动模式的形式提供了先验知识,并从演示中学习这些模式的参数。
多镜头学习可以在记录多个演示后批量执行,或随着新的演示执行增量(例如Lee和Ott 2011)。学习通常通过跨演示的数据统计分析执行推理,其中信号通过概率密度函数建模,并使用机器学习产生的各种非线性回归技术进行分析。目前流行的方法包括高斯过程,高斯混合模型,支持向量机,见此页这些作品的例子。
Teaching Force-Control Tasks
虽然迄今为止大多数LfD - PbD的工作都集中在学习末端执行器或其他关节的运动,但最近的工作研究了从人类演示中提取基于力的信号(Calinon et al. 09;Kormushev等2011年,Rozo等2011年)。传递有关力的信息对人类和机器人来说都是困难的,因为只有在我们自己执行任务时才能感觉到力。因此,目前的努力寻求解耦运动学和力的教学,如图10所示,或开发方法,其中一个可以体现机器人,并通过这样做,让人类和机器人同时感知所施加的力在执行任务。这一行的工作是由最近的进展,设计的触觉设备和触觉感知,以及发展扭矩和可变阻抗驱动系统,以教力量控制任务通过人体演示。
Learning high-level action composition
学习复杂的任务,由组合和并列的个别运动,是最终目标的LfD - PbD。常见的方法是第一次学习所有的个人运动模型,分别使用演示这些行动(Daniel et al . 2012年,曼京和Oudeyer 2011),然后学习正确的排序/组合在第二阶段通过观察人类执行整个任务(Dilmman 2004;Skoglund等人2007)或通过强化学习(Mülling等人2013)。然而,这种方法假定存在一组已知的所有必要的原始操作。对于特定的任务来说,这可能是正确的,但到目前为止,还没有一个通用的原始动作的数据库,也不清楚人类动作的可变性是否真的可以减少到一个有限的列表。
另一种方法是观察人类执行完整的任务,并自动分割任务以提取基本动作(这可能会成为依赖于任务的),参见e.g. (Kulic et al 2012)。它的主要优势在于,基本动作和组合动作的方式都是一次性学会的。出现的一个问题是,基本任务的数量通常是未知的,可能有多个可能的分段必须考虑(Grollman和Jenkins 2010)。
图11显示了一个由复合动作组成的复杂任务示例——一个将盘子装入洗碗机的机器人。在第一种方法的例子中,机器人被给予一组已知的(预先编程或事先学习的)行为,如拿起杯子,向洗碗机移动,打开洗碗机等,并且必须学习正确的行动序列来执行。整个序列本身要么通过语音处理诱导人类请求,要么通过观察人类演示者完成的任务来学习(Asfour et al. 2008)。其他高水平学习的例子包括通过模仿更有知识的机器人或人类来学习已知行为序列来导航(Hayes和Demiris, 2006;Gaussier等98,Nicolescu和Mataric 2003);以及人形机器人全身运动的基本运动的学习和排序(Billard, 2000;Ito和Tani 2004;Kulic等人,2008)。
Imitation Learning combined with Other Learning Techniques
LfD - PbD的大部分工作仅仅专注于从演示数据中学习。然而,越来越多的研究着眼于如何将LfD - PbD与其他学习技术结合起来。其中一组研究如何将模仿学习与强化学习相结合,强化学习是机器人通过试错学习的方法,从而使奖励最大化。其他作品的灵感来自于人类的相互教学方式,引入了互动、双向的教学场景,机器人在教学过程中成为积极的合作伙伴。下面我们将简要回顾这些领域的主要原则
Imitation Learning and Reinforcement Learning
模仿学习的一个主要限制是机器人只能变得和人类的演示一样好。没有额外的信息来改善学习行为。相比之下,强化学习允许机器人通过自由探索状态-行动空间来发现新的控制策略,但往往需要很长时间才能收敛。将两者结合起来的方法旨在利用两者的优点来克服各自的缺点。特别是,演示被用来启动和指导在强化学习期间所做的探索,减少了找到改进的控制策略的时间,这可能会偏离演示的行为。
可以以不同的方式使用演示来引导RL。它们可能被用作初始推出,从中计算出保单的初始估计(Kober和Peters, 2010;Kormushev等,2010;Jetchev和Toussaint 2013),或者生成初始的原语集合(Bentivagna et al. 2004;Kormushev等2010;Mülling等,2013)。在后一种情况下,RL被用来学习如何跨这些原语进行选择。演示也可以用来限制RL覆盖的搜索空间(Peters, Vijayakumar &Schaal, 2003;Guenter et al. 2007),或估计奖励功能(Ziebart et al., 2008;Abbeel等人2010)。最后,RL和模仿学习可以在运行时结合使用,让演示者在一次试验中接管部分控制(Ross等,2011)。
图12和图13展示了两个技术示例,利用强化学习结合LfD - PbD,在已知的奖励功能下,提高机器人的性能,超过了演示者的性能。请参见基于奖励的LfD示例。
- Inverse Reinforcement Learning/Learning the Cost Function
通常情况下,将模仿学习与强化学习相结合的工作假设有一个已知的奖励来指导探索。相反,逆强化学习(IRL)提供了一个框架来自动确定奖励和发现最优控制策略(Abbeel和Ng 2004)。当使用人类演示来指导学习时,IRL共同解决什么要模仿和如何模仿的问题,参见逆强化学习的例子。虽然原始方法假设马尔科夫世界(即离散状态行动空间),但备选方法在连续空间中导出成本函数(Ratliff等,2006,2009),并包括对连续状态行动空间IRL的扩展(Howard等,2013)。值得注意的是,这些工作都与逆最优控制密切相关,是控制理论研究的一个大领域
所有IRL工作的基础是一致的奖励功能的假设。当多个专家提供演示时,这假设所有专家都优化相同的目标。这是一种限制,并且没有利用人类可能解决相同任务的不同方式。最近的IRL工作考虑了多个专家,并确定了多个不同的奖励功能(Choi和Kim 2012;Tanwani和Billard 2013)。这使得机器人可以学习多种(尽管不是最理想的)方法来执行相同的任务。希望这种策略的多样性将使控制器更加健壮,当环境不再允许机器人以最优方式执行任务时,提供完成任务的替代方法。
在前面的所有示例中,都依赖于人工成功地演示了所需的任务。LfD-PbD技术假设所有的演示都是好的演示,研究人员通常会丢弃那些不能作为良好行为的代理的数据。最近的工作已经开始调查这种可能性,即对应于执行任务失败尝试的演示可能有助于学习(Grollman和Billard, 2011;Ray等人2013)。在这种情况下,LfD - PbD扩展到学习什么应该模仿和什么不应该模仿。这项工作提供了一个有趣的替代方法,结合模仿学习和强化学习,因为没有奖励需要明确确定,见图14,也见从失败中学习。
LfD - PbD and Human-Robot Interaction
由于LfD - PbD既涉及人也涉及机器人,它与人机交互(HRI)领域有很大的重叠。除了学习算法本身,许多以人为中心的问题被研究作为LfD - PbD的一部分。一般来说,重点是如何更好地引出和利用演示(见[Goodrich &Schultz 07, Fong等人03,Breazeal &Scasselatti 02]用于调查)。
新的研究方向寻求使教学/学习过程更具互动性。通过指出哪些部分的演示不清楚,或者任务的哪些部分建模不佳,机器人可以成为更主动的伙伴(Grollman &詹金斯07;Shon等人2007)。然后教师可以通过提供补充信息来完善机器人的知识。这个补充信息可能包括完成任务的额外几轮演示(Chernova和Veloso 2009;Thomaz, A.和Breazeal, C. 2008),或者可能局限于任务的子部分(Argall et al 2010, Calinon和Billard 2007)。这些信息可以通过特定的任务特征来传达,比如一列路径点(Silver et al. 2012;Akgun等人2012年)。然后机器人可以自由地利用这些关键点来插入一个轨迹。
该领域正在进行的工作集中在技术上,用户和机器人可以更紧密地合作,以改进机器人的策略。我们感兴趣的领域包括让机器人对自己的能力有信心,这样它就可以寻求帮助,并允许用户解决整个任务的特定子部分,见交互式学习的例子。
然而,这种增量式教学方法的设计意味着需要机器学习技术,以一种稳健且通常快速的方式整合新数据(Silver等人,2012年),并处理模糊的数据。它也为其他人机界面系统的设计打开了大门,包括使用语音来允许人类和机器人之间的知情对话(Akgun等人2012;Rybski et al. 2007),如图15所示。在这里,机器人在教学期间或之后请求帮助,验证其对任务的理解是正确的(Cakmak和Thomaz 2012)。由这些问题引起的任何变化都会立即生效。
Limitations and Open Questions
LfD-PbD的研究进展迅速,不断突破极限,提出新的问题。因此,任何限制和开放式问题的清单注定是不完整和过时的。然而,仍有一些长期存在的局限性和有待解决的问题值得进一步关注。
一般来说,LfD-PbD的工作假设机器人的控制策略是固定的,给定的形式,并学习适当的参数。到目前为止,有几种不同形式的政策在共同使用,并且没有明确的正确(或主导)技术。此外,有可能为系统提供控制器的多种可能表示,并选择最合适的。
强化学习和模仿学习的结合已经被证明有效地解决了需要微调机器人动力学的技能的获得。同样地,更多的交互式学习技术已经被证明是成功的,通过在人类引导和机器人发起的学习之间切换,允许协作改进学习策略。但是,目前还没有协议来确定何时在各种学习模式之间进行最佳切换。事实上,答案可能与任务有关。
在迄今为止的工作中,教学通常是由一名教师来完成的,或者教师对教学任务有明确的概念。需要做更多的工作来解决不同风格的教师之间的示威冲突问题。同样,教师通常是人,但也可以是任意的专家代理。这个代理可以是一个更有知识的机器人或计算机模拟。这个方向的早期工作是在90年代完成的(Hayes和Demiris 1994;Gaussier等,1998)。
LfD-PbD的实验大多集中在一个单一的任务(或一组密切相关的任务),每个实验都从一个空白开始。随着复杂任务学习的进展,必须设计出大规模存储和重用先验知识的方法。学习阶段,类似于儿童发展阶段,可能是必需的。需要有一个形式主义来允许机器人选择信息,减少冗余信息,选择特征,并有效地存储新数据。
Further Reading
在另一页中,我们重新排列了当前工作的列表。为了便于观察,我们将该领域划分为几个广泛的领域,基于研究的主要焦点放置工作。对于研究的每个方案,我们提供了一个参考,并简要地描述了度量和对应函数的选择。并对学习用的模型和更新方法作了说明。这个页面绝不是完整的,我们邀请其他研究者提交他们自己(或其他人)的工作概要。
请参见“从演示中学习的形式主义”页面,其中我们提供了一些形式主义来描述LfD - PbD中的学习过程。这种形式在我们在附带页面中列出的当前工作示例中得到了实例化。
感兴趣的读者也可以阅读(Byrne 2002, Call and Carpenter 2002和Tomasello et al 1993),其中提供了一些动物模仿学习的生物学背景,其中Nehaniv &Dautenhahn, 2001)。