Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation
Abstract
本文目的是为了估计RGB-D图像中不可见物体的6D位姿和尺寸。和实例级别的6D姿态估计任务相反,我们的问题假设在训练或测试期间没有精确的对象CAD模型可用。为了处理给定类别中不同且不可见的对象实例,我们引入了规范化对象坐标空间,一个类别中所有可能对象实例的共享规范表示。然后,我们基于区域的神经网络被训练来直接推断从观察像素到这个共享对象的对应关系,以及其他对象信息,如类标签和实例编码。这些预测可以和深度图结合,共同估计在一个混乱的场景中多个物体的度量6D姿态和维数。为了训练该网络,我们提出了一种新的上下文软件技术来生成大量完全注释的混合现实数据。为了进一步改进我们的模型并评估骑在真实数据上的性能我们还提供了一个具有大环境和实例变化的完整注释的真实数据集。大量的实验表明,该方法可以文件的估计真实环境中不可见对象的姿态和大小,同时在标准6D姿态估计基准上实现最先进的性能。
- 本文目的为了估计RGB-D图像中不可见物体的6D位姿和尺寸。
- 引入规范化对象坐标空间
- 新的上下文技术去生成大量完全注释的混合现实数据。
Introduction
在VR和AR、机器人技术和3D场景理解当中,目标的检测和三维位置、方向和大小的估计是一个重要的需求。这些应用程序需要在新的环境中进行操作,这些环境可能包含以前不可见的对象实例。过去的工作已经探索了实例级别的6D位姿估计问题,在这个问题中可以预先获得精确的CAD模型和尺寸。不幸的是,这些技术不能再通用设置中使用,因为大多数对象之前从未见过,也没有已知的CAD模型。另一方面,类别级3D对象检测方法可以估计出对象类别标签和3D包围框,而不需要精确的CAD模型。然而估计的3D包围盒是viewpoint-dependent
的,并不编码精确的物体方向信息。
在本文中,我们的目标是通过提出第一个分类级6D多对象姿态和大小估计的方法来弥合这两类方法之间的差距,据我们所知,这是一个对新对象实力具有挑战性的问题。由于我们不能对我们看不见的物体使用CAD模型,第一个挑战是找到一种表示方法,允许在特定类别中定义不同物体的6D姿势和大小。第二个挑战是无法获得用于训练和测试的大规模数据集。类似SUN RGB-D
和NYU v2
这样的数据集缺少对6D姿态和大小的精确估计或者不包含表级对象类别,正是在桌面或桌面操作