分段任意模型满足零样本6D对象姿态估计

6.11 SAM-6D：分段任意模型满足零样本6D对象姿态估计

6.11.1 SAM-6D：分段任意模型满足零样本6D对象姿态估计概述

零样本6D物体姿态估计涉及在杂乱场景中检测具有6D姿态的新物体，这对模型的可推广性提出了重大挑战。幸运的是，最近的Segment Anything Model（SAM）展示了非凡的零样本转移性能，这为解决这一任务提供了一个有前景的解决方案。受此启发，介绍了SAM-6D，这是一种新的框架，旨在通过两个步骤实现该任务，包括实例分割和姿态估计。给定目标对象，SAM-6D采用两个专用子网络，即实例分割模型（ISM）和姿态估计模型（PEM），对杂乱的RGB-D图像执行这些步骤。ISM将SAM作为生成所有可能对象建议的高级起点，并通过精心设计的语义、外观和几何方面的对象匹配分数，有选择地保留有效的对象建议。通过将姿态估计视为部分局部点匹配问题，PEM执行了一个两阶段点匹配过程，该过程采用了一种新颖的背景标记设计来构建密集的3D-3D对应关系，最终得到姿态估计。在没有花哨功能的情况下，SAM-6D在BOP Benchmark的七个核心数据集上，在新对象的实例分割和姿态估计方面都优于现有方法。

6.11.2 SAM-6D：分段任意模型满足零样本6D对象姿态估计技术分析

用于零样本6D物体姿态估计的SAM-6D，如图6-29所示。

添加图片注释，不超过 140 字（可选）

图6-29用于零样本6D物体姿态估计的SAM-6D

在图6-29中，SAM-6D将杂乱场景的RGB图像（a）和深度图（b）作为输入，并对新对象（c）执行实例分割（d）和姿态估计（e）。展示了SAM-6D在BOP基准[54]的七个核心数据集上的定性结果，包括YCB-V、LM-O、HB、T-LESS、IC-BIN、ITODD和TUD-L，从左到右排列。电子版中的最佳视图。

SAM-6D由实例分割模型（ISM）和姿态估计模型（PEM）组成，如图6-30所示。

添加图片注释，不超过 140 字（可选）

图6-30 SAM-6D由实例分割模型（ISM）和姿态估计模型（PEM）组成

在图6-30中，用于RGB-D图像中新对象的联合实例分割和姿态估计。ISM利用分段任意模型（SAM）[26]生成所有可能的提案，并根据对象匹配分数有选择地保留有效提案。PEM涉及两个阶段的点匹配，从粗略到精细，以建立3D-3D对应关系并计算所有有效提案的对象姿态。

SAM-6D姿态估计模型（PEM）的说明，如图6-31所示。

添加图片注释，不超过 140 字（可选）

图6-31 SAM-6D姿态估计模型（PEM）的说明

6.11.3 结论

以分段任意模型（SAM）为零样本6D目标姿态估计的先进起点，提出了一种新的框架SAM-6D，该框架由实例分段模型（ISM）和姿态估计模型（PEM）组成，分两步完成任务。ISM利用SAM对所有潜在的对象提案进行细分，并在语义、外观和几何方面为每个提案分配一个对象匹配分数。然后，PEM通过粗略点匹配和精细点匹配两个阶段来解决部分到部分点匹配问题，从而预测每个提案的对象姿态。SAM-6D的有效性在BOP基准的七个核心数据集上得到了验证，其中SAM-6D明显优于现有方法。