论文阅读：Demo2Vec: Reasoning Object Affordances from Online Videos.

今天分享一篇关于通过视觉线索对物体的 Affordance 进行推理的文章：Demo2Vec: Reasoning Object Affordances from Online Videos.

0.摘要

观看专家演示是人类和机器人推理看不见的物体的重要方式。在本文中，我们通过演示视频的特征嵌入来考虑合理提供对象的问题。我们设计了Demo2Vec模型，该模型学习提取演示视频的嵌入式矢量，并预测同一对象的目标图像上的交互区域和动作标签。通过收集和标记各种YouTube产品评论视频，我们介绍了Affordance（OPRA）在线产品评论数据集。我们的Demo2Vec模型在收集的数据集上胜过各种递归神经网络基线。

1.介绍

当学习与看不见的物体互动时，人类通常会吸引专家的示范。通过观看另一个人的演示，人们可以了解对象的能力，即不同部分的功能以及可以采取的措施。在不同的环境中看到相同的对象时，人们可以将所学的承受能力映射到该对象上，并模仿他们从先前的演示中观察到的动作。为了向机器人教授人类如何操作物体以及如何与物体交互，以前的方法是从模拟的代理与物体的交互[33、23、29]，由机器人摄像头在机器人工作区中观察到的演示[22、17]或从第三人称视角观察到的示威游行[13，14]。从这些演示中学到了不同形式的对象馈赠，并将其用于诸如模仿学习和动作预测之类的任务。

但是，存在有关对象供应的人类演示的丰富得多的数据资源，可以从Internet进行利用。具体来说，产品制造商和用户将大量产品评论视频上传到YouTube和其他视频共享网站。这些视频涵盖了人们在日常生活中与之互动的各种对象类别，包括厨具，车库工具，消费类电子产品，家用电器，玩具等。在每个视频中，通常会有一个人类演示者（例如，用户或销售人员）通过对产品对象的一系列操作来详细展示其功能。这些视频为机器人提供有关产品功能以及人们如何与产品交互的大规模，高质量数据。

从这些产品评论视频中进行人工演示，我们的目标是学习总结演示视频的特征嵌入，从而预测同一对象的目标图像上的交互区域和相应的动作标签。考虑图1中的烤架。通过观看演示者在产品评论演示视频中打开烤架，我们旨在预测动作标签旋转，并且热图以目标图像中间的旋钮为中心。这个问题具有挑战性，主要有两个原因：首先，对象的外观在演示视频和目标图像之间可能会有很大的差异，这使得很难在两者之间传递学习到的知识。其次，人与物体之间的交互通常在时间上非常稀缺，并且大多数视频帧无法提供有用的信息来理解这些承受能力。为了应对这些挑战，我们设计了Demo2Vec模型。该模型由一个演示编码器和一个可供量预测器组成。演示编码器将演示视频作为输入，并将其编码为低维嵌入向量。负担预测器利用嵌入的向量预测目标图像的交互区域和动作标签。嵌入的矢量从观察到的演示视频中总结了人类动作和对象外观的信息。

为了训练Demo2Vec，我们介绍了Affordance（OPRA）在线产品评论数据集。我们的数据集包括20,612组视频剪辑，相应的产品图像以及交互热图和由人类注释者标记的动作标签的注释。这些视频片段来自YouTube产品评论频道的完整视频，涵盖了演示人员与各种日常用品的互动，例如厨具，家用电器和消费类电子产品。与不同的演示视频配对使用时，每个目标图像可以对应不同的交互热图，该演示视频涵盖了大多数可用功能。可能动作的动作标签分为七个类别。

我们的主要贡献是：

我们提出了Demo2Vec模型，该模型从演示视频中提取特征嵌入，并通过将提取的知识转移到目标图像上来预测同一对象的承受能力。
我们介绍了Affordance（OPRA）的在线产品评论数据集。这是第一个基于野外演示视频提供用于负担推理的测试平台的数据集。
我们在新引入的OPRA数据集上评估Demo2Vec。我们的模型胜过一系列递归神经网络基准。

2.相关工作

Learning Affordances

以前的工作依赖于RGB图像和视频，这些视频和视频带有诸如深度或估计的人体姿势之类的附加信息，以学习能力。 Koppula等。提出了一种算法，该算法使用骨架跟踪器从估计的RGB-D视频[12、13]中学习交互的语义标签，空间区域和时间轨迹，以提取估计的人体姿势。朱等。从RGB-D视频执行3D场景重建，这需要明确跟踪使用中的工具，对象和手部运动[32，33]。

许多基于RGB-D图像的方法都对场景进行逐像素分类，将其划分为具有不同承受能力等级的区域。罗伊等。用步行和坐便器等人类比例标签预测可负担能力地图[21]。 Srikantha等。执行完全监督的像素级分类以及较弱的监督形式，例如关键点和图像级注释[25]。 Nguyen等。也可以将对象的承受能力预测为热图，并将其方法应用于真正的人形机器人以完成简单的抓取任务[18]。其他基于RGB图像的方法可从估计的人体姿势中获取其他3D信息。姚等。测量乐器和人类演奏者的相对姿势，以聚类到乐器上进行的不同类型的交互[30]。同样，Kjellstrom等。跟踪手势并将其重构到对象上以确定对象-动作对[11]。

与这些方法相比，我们的方法仅从纯RGB视频演示中学习能力，而无需上述方法所依赖的任何其他信息。此外，由于这些视频是直接从Internet上抓取的，因此在许多方面，例如视点，正在采取的互动以及演示者（或目标对象的某些部分）可能被遮挡等方面，我们的视频都更加多样化。

Learning from Demonstrations (LfD)

模仿学习是一种教导学习者模仿假定专家演示中的策略的方法。罗斯等。提出了DAGGER [20]，这是一种从专家策略中学习固定确定性策略的迭代算法。段等。设计了一个一次性的模仿学习框架[3]，以在测试期间教机器人使用新颖的演示来堆叠块。 Stadie等。设计一个神经网络，该网络从模拟中的第三人称演示中学习[26]。 Ho等。提出了一种基于生成对抗网络的算法[5]，以学习奖励功能并根据专家轨迹设计新的策略优化更新规则[6]。

在这些情况下，演示和预测来自同一领域。但是，在我们的工作中，我们旨在从在线产品评论视频中学习，并将学到的知识转移到目标图像上。

3.方法

我们的目标是通过演示视频的嵌入矢量来预测看不见的对象的承受能力（即动作标签和相互作用区域）。嵌入式矢量汇总了演示视频中的对象外观和人与对象的相互作用。我们定义模型的输入和输出，如下所示：

Demo2Vec模型如图2所示。该模型由一个演示编码器和一个能力预测器组成。演示编码器从视频V中提取演示嵌入v作为低维特征向量。给定v，可预见性预测器预测动作标签c并将交互作用区域投影到目标图像I上，以生成热图H。

Demonstration Encoder

学习演示嵌入的主要挑战是提取有关人与物体交互的有用视觉提示。通常，人与物体之间的交互仅在瞬间发生，而在大多数视频帧中，演示者会保持静止并用语言解释功能。此外，场景中可能会有许多干扰因素，例如桌子上的其他物体和混乱的背景。

为了解决这些挑战，我们提出了一个使用卷积LSTM网络（Con-vLSTM）[7，4，27]和软注意力模型[28]的演示编码器模型。

功能预测器由动作分类器和热图解码器组成。动作预测器使用LSTM预测动作标签。热图解码器实现为全卷积神经网络的修改版本[15]。它首先使用全卷积层对目标图像进行编码。然后，将计算出的卷积特征与平铺的演示嵌入v连接起来。最后，通过将连接的特征输入转置卷积层中来计算热图[31]。应用softmax层将热图的总和归一化。

通过功能预测器学习并评估演示嵌入v。对于动作分类，我们将交叉熵损失应用于预测动作标签c。对于热图预测，我们使用预测的热图和地面真实热图之间的KL散度作为损失，其中地面真实热图是通过对注释点应用高斯模糊来渲染的。

4.数据集

本文的主要目标是开发一种模型，该模型可以使用野外视频中的人类演示来学习能力推理。为了训练我们的模型并为其他方法提供测试平台，我们需要一个数据集，其中包含大量人类与各种物体的交互作用的演示。

为此，我们提出了用于学习支持推理的“在线产品评论数据集”（OPRA）。该数据集包含从6个流行的YouTube产品评论频道中抓取的11,505个演示剪辑和2,512个对象图像以及相应的报价信息。这些视频中演示的产品包括厨具对象，家用电器，消费类电子产品，工具和其他对象。为了生成这些剪辑，将1,091个全长视频分别分成2至15个剪辑。每个分段的剪辑仅包含演示者与对象之间的单个交互。对于每个产品评论视频，根据上载者在YouTube视频描述中提供的产品信息，从Internet上收集1至5个产品图像。这样总共产生了20,774对演示视频剪辑和相关的目标图像。我们将数据集分为16,976对用于训练，3,798对用于测试。手动完成此操作是为了避免从不同的角度看相同的对象或太相似的对象（例如不同品牌的咖啡机）出现在训练和测试集中。样品如图3所示。

做出丰富的负担能力预测的一种方法是训练一组不同的分类器，每个分类器都关注对象的一个方面（颜色，形状，纹理等）。但是，假设我们可以对苹果的所有属性进行详尽的列表处理，那么反面的问题仍然存在-即，假设某人吃了一块水果的图像或红色，圆形的苹果的图像，则推断出水果的类型水果。

posted @ 2020-12-04 11:44 feifanren 阅读(142) 评论(0) 收藏举报

刷新页面返回顶部

feifanren

论文阅读：Demo2Vec: Reasoning Object Affordances from Online Videos.

公告