One-Shot Visual Imitation Learning via Meta-Learning

我们建议将元学习与模仿相结合,使机器人能够重复使用过去的经验,从而通过单一演示学习新技能.
本文的主要贡献在于展示一个从原始像素学习一次性模仿学习。
我们的方法能够通过仅使用一个视觉演示来学习可以适应新任务变体的视觉运动策略。
我们的目标是通过使用用于元学习的许多其他任务的演示数据集,从单个任务演示中学习新任务。

从本质上讲,我们学习的策略参数,只需在一个新任务的演示中进行微调,就可以立即学会执行该任务。这使得机器人能够以极高的效率端到端地学习新任务,仅使用一次演示,而无需任何其他机制,如上下文或学习更新功能。

3 Meta-Imitation Learning Problem Formulation
我们的目标是学习一种策略,通过单一的任务演示,可以快速适应新任务。
在元学习期间,策略被训练以适应大量任务。形式上,每个模仿任务\(\tau_i={\tau= (o_1,a_1,....,o_T,a_T) 服从 \pi_i^*,L(a_{1:T},\hat{a_{1:T}}),T }\)
包含由各个任务的专家策略\(\pi_i^*\)生成的演示数据以及一个用于模仿的loss函数。反馈由Loss函数\(L(a_1,...,a_T,\hat{a_1},...\hat{a_T})\to R\)提供。这可能是用于连续的动作的均方误差,或者用于离散动作的交叉熵损失

3.2 Background:Model-Agnostic Meta-Learning(模型不可知元学习)
在我们的视觉元模仿学习方法中,我们将使用元学习来训练跨多个任务的快速适应,通过将模型不可知元学习(MAML) [27]扩展到视觉输入的元模仿学习。当适应新的任务\(\tau_i\),模型参数由参数\(\theta\)变为\(\theta_i '\),在MAML,新任务的模型参数为\(\theta_i '\)通过一次或更多的梯度下降更新\(\theta_i ' = \theta - a\bigtriangledown_{\theta}L_{\tau_i}(f_{\theta})\)

4 Meta-Imitation Learning with MAML
在本节中,我们将描述如何将模型无关的元学习算法(MAML)扩展到模仿学习设置


Algorithm 1
require: 所有任务的分布(值为0-1,根据值范围选择不同的任务,如0-0.1为Task1,0.1-0.23为Task2....)

1.初始策略模型参数\(\theta\)
while not done do
采集一批任务,如(task1,task3,task2,task1,task2,task1,...)
for all \(task_i\) do ( 循环每一任务)
对于该任务,模拟一次(one episode)
评估策略模型在该任务上的性能
获得针对该任务的策略模型
对于该任务,再模拟一次 ,并把本次模拟数据存储起来用于元更新
end for
使用存储的模拟数据以及每个任务的策略模型 来更新模型(元更新)

end while

对于元学习,我们假设一个演示数据集,每个任务至少有两个演示。此数据仅在元训练期间使用; 元测试时间假设每个新任务只有一个演示。在元训练期间,每个元优化步骤都需要以下内容:对一批任务进行采样,并对每个任务进行两次演示。使用其中一次演示,对等式(2)使用梯度下降法更新每个任务\(\tau_i\)的参数\(\theta_i'\)。然后,每个任务的第二演示通过使用等式(1)用于计算所述元目标的梯度中,最后,根据元目标的梯度更新θ 。实际上,这两次演示数据用作训练验证对。

元训练的结果是可以使用单个演示适应新任务的策略。因此,在元测试时,对新任务进行采样,提供该任务的一个演示,并更新模型以获取该任务的策略。在元测试期间,新任务可能涉及新目标或操纵新的,以前看不见的对象。

4.1 Two-Head Architecture:Meta-Learning a Loss for Fast Adaptation

6 Experiments
MIL策略可以学习本地化以前看不见的目标对象,并成功地将保留的项目放置到目标上,成功率达到90%

7Discussion and Future Work
虽然我们的实验评估使用的是具有有限多样性的任务(除了对象多样性),但我们预计我们的方法的能力会大大增加,因为它提供了越来越多样化的元训练演示。由于元学习算法可以包含来自所有可用任务的演示数据,因此它们提供了在机器人学习环境中利用大型数据集的自然途径,使机器人不仅可以学习更多技能,因为他们获得了更多的演示,但实际上成为通过这个过程更快,更有效地学习新技能。

posted @ 2019-03-15 19:30  blog_hfg  阅读(601)  评论(0)    收藏  举报