RelatiViT革新视觉识别,英特尔·清华联合研发,空间关系捕捉力度大提升

a6fe757d39f59e7cb19297b7a0595116.jpeg

94ac4fd502ac6a570607dff4514c2143.jpeg

b8061b27f2a5dee39f9b0c198487db64.jpeg

开篇:空间关系的重要性与视觉理解

在人类理解和与世界互动的过程中,物体之间的空间关系扮演着关键的角色。例如,当我们看到“咖啡杯下面有个碟子”时,我们能够理解这一空间关系,并据此制定合理的操作计划:先移开咖啡杯再拿起碟子。但是,现代计算机视觉系统是否能够准确完成这种空间关系识别任务呢?给定一张图片和两个查询实例(主体和客体)的边界框,任务是识别它们之间的空间关系。尽管现代计算机视觉系统在场景和物体分类识别、物体分割等多个视觉理解问题上取得了显著进展,但在理解物体关系,尤其是在精确的物理基础上的空间关系方面,研究相对较少。

空间关系的理解不仅对于人类至关重要,对于机器人来说也同样重要。例如,机器人要拿起碟子,就需要准确识别出“碟子在咖啡杯下面”的空间关系。这就要求计算机视觉系统不仅能检测出物体,还要能理解它们之间的精确空间关系。本文将探讨现代计算机视觉系统在这一领域的能力,并提出一种新的架构,以期在野外环境中准确预测物体间的空间关系。

标题: CAN TRANSFORMERS CAPTURE SPATIAL RELATIONS BETWEEN OBJECTS?

公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!

4b29a2a8d7f1edb605fe52d0e50b8df8.jpeg

空间关系识别的挑战与现状

1. 现有系统的局限性

在计算机视觉系统中,识别物体间的空间关系是一项基本任务,但现有的方法在这方面的表现并不理想。尽管空间关系识别(Spatial Relation Prediction, SRP)任务看似简单,但现有的计算机视觉方法却未能超越简单的基线模型,即仅基于物体边界框坐标进行预测的模型。这些方法通常采用标准的视觉任务架构,例如从冻结的CNN(卷积神经网络)中提取两个物体的局部特征,然后输入到一个多层感知机(MLP)中进行关系分类,这使得它们难以明确地建模物体间的长距离交互,这对于SRP任务可能是必要的。

2. 物理空间关系的定义与重要性

物理空间关系的准确识别对于机器人执行任务(如拾取物体)至关重要。为了研究这些关系,首先需要建立一个新的基准数据集。现有的数据集如Rel3D和SpatialSense在现实场景中的应用受限,因为它们要么处理的是合成场景,背景和纹理简单,要么由于关系定义的模糊性和语言偏见等问题导致注释不一致。为了解决这些问题,研究者们提出了精确、明确的空间关系定义,以便在复杂的现实世界场景中一致地分配目标标签。

8cbd2b8275634d75758b578951c9189e.jpeg

提出新的基准数据集

1. SpatialSense+数据集的构建

为了构建一个精确和物理上合理的现实世界数据集,研究者们重新标注了SpatialSense数据集,提出了明确的、物理上有根据的空间关系定义。例如,“in”被限定为:“主体在对象内部,且对象至少半包围主体。”根据新的定义,研究者们随机抽样了SpatialSense的一个子集,并严格按照新定义重新标注,最终得到了一个更小但更清晰的版本“SpatialSense+”,修复了之前提到的不一致性。

2. 数据集的关键特点与统计数据

SpatialSense+数据集包含了7254个关系三元组和4418张图片。这个数据集的关键特点是它提供了精确、无歧义且物理上有根据的空间关系定义,这些定义允许在复杂的现实世界场景中一致地分配目标标签。通过这种方式,SpatialSense+数据集为研究物体间空间关系的识别提供了一个更加严格和现实的测试平台。

d03c1bf51369990a0d915422c03d628c.jpeg

Transformer架构的优势

1. 长距离注意力机制的作用

(Transformer architecture)在多个领域取得了巨大成功,特别是在自然语言处理(NLP)和计算机视觉中。这种架构的核心优势在于其长距离注意力机制(long-range attention mechanism),它允许模型捕捉输入序列中任意两个元素之间的关系。在视觉任务中,这意味着模型能够理解图像中不同区域之间的相互作用,这对于空间关系预测(Spatial Relation Prediction, SRP)任务至关重要。

2. RelatiViT架构的介绍与优势

RelatiViT是一种专为SRP任务设计的转换器架构。它通过将图像的不同部分(例如,两个对象的边界框)作为输入序列的一部分,利用自注意力机制来模拟这些部分之间的相互作用。这种设计允许RelatiViT在不同层次上捕捉对象间的空间关系,从而提取出更丰富的关系特征。实验结果表明,RelatiViT在SRP任务上的性能显著优于现有方法,这证明了其在捕捉图像中物体间复杂空间关系方面的优势。

cda37824486f74cb1decd3082b9e11d9.jpeg

实验设置与评估指标

1. 数据集与实验配置

实验使用了两个数据集:Rel3D和SpatialSense+。Rel3D是一个合成数据集,包含了多样的空间布局,但背景和物体纹理较为简单。SpatialSense+是一个基于现实世界图像的数据集,它通过重新标注现有的SpatialSense数据集来提供更精确、一致的空间关系定义。实验中,所有模型的输入包括RGB图像、对象的边界框和类别,以及它们之间的空间关系谓词。图像大小统一为224×224像素,对象类别通过Glove编码为300维嵌入。

2. 评估方法与性能指标

评估模型性能时,采用了两个指标:平均准确率(%Avg. Acc.)和F1分数(%F1)。平均准确率避免了由于某些关系类别样本数量较多而导致的整体准确率偏差,而F1分数则是二分类任务中常用的性能度量。在验证集上调整超参数,并在测试集上报告了不同模型的平均值和标准偏差。实验重复了5次,以不同的随机种子进行,以确保结果的稳定性。

07abbebeed68ca4b6c57bfb8f8fd9ba9.jpeg

实验结果与分析

1. 不同设计方案的比较

根据表格3的数据,我们可以看到RelatiViT在两个数据集Rel3D和SpatialSense+上的表现都优于RegionViT、CNNTransformer和CrossAttnViT。这表明RelatiViT在处理空间关系预测(SRP)任务时具有更强的性能。

31bed73c098a81dd43b1ca758ac6d79c.jpeg

2. 与现有方法的对比

如表格4所示,RelatiViT显著优于所有现有方法。即使是最先进的大型视觉语言模型,如MiniGPT-4、LLaVA、Gemini和GPT-4V,在SpatialSense+数据集上的表现也不尽人意,这强调了空间关系预测任务对于视觉推理的重要性,是评估大规模多模态模型能力的关键基准。

038c1bb8991ca8ea7b306deb237c316e.jpeg

27e76f015b5f2e13bdeb270e9a4b9b41.jpeg

RelatiViT的深入分析

1. 设计轴的消融研究

通过对RelatiViT设计的消融研究(表格5),我们发现特征提取、上下文聚合和成对交互这三个组件对于RelatiViT的性能至关重要。特征提取是提取原始像素特征的基础模块,其缺失导致性能显著下降。上下文聚合在空间关系预测任务中起着重要作用,因为模型依赖于上下文信息来推断主体和客体之间的关系。成对交互对性能的影响相对较小。

50dae4ddd8d4e29eb3dab620d502b19d.jpeg

2. 每个类别的性能分析

表格6展示了RelatiViT在SpatialSense+上每个类别的准确性。与仅基于边界框坐标的bbox-only基线相比,我们的方法在需要视觉信息(如深度、物体姿态和形状等)的“above”、“behind”、“in”、“on”、“under”和“in front of”等类别上表现更好。这表明RelatiViT成功提取了有效的视觉表示来进行SRP。

29f3f897e119bc2fb0d22dc563780d1b.jpeg

3. 注意力图可视化与解释

为了研究我们的方法如何参考视觉信息,我们可视化了RelatiViT和CrossAttnViT的注意力图,这反映了每个查询在多大程度上以及在哪个区域关注上下文图像(上下文聚合)以及两个查询之间的关注(成对交互)。如图4所示,除了关注查询区域外,RelatiViT的主体和客体查询还关注了两者之间的柠檬。因此,RelatiViT知道番茄和鸡蛋之间有障碍物,所以预测为“False”。相反,CrossAttnViT的注意力图杂乱无章,难以解释。这说明RelatiViT通过正确关注上下文图像和两个掩蔽查询图像的关键区域,从而优于其他方法。

77bf3e2c5966dbb01aa0eb694a2c007f.jpeg

结论与未来工作展望

在本文中,我们通过对各种基于变换器的模型进行基准测试,探讨了预测精确和物理上可信赖的关系的最佳方法。这是一个对于现代方法来说仍然出奇地具有挑战性的基本视觉任务,对于机器人操控和一般场景理解至关重要。我们的实验产生了关于变换器系统设计原则的关键见解,并确定了一个明确的赢家——RelatiViT。这是迄今为止首个超越简单基线的系统,为这一基本视觉能力树立了新的标杆。它将成为未来在这一方向努力的重要起点和基准。

1. 关于RelatiViT的性能

RelatiViT通过利用变换器的长期注意力能力,使查询能够自动参考彼此并关注上下文信息,从而同时完成查询定位、上下文聚合和对交互。RelatiViT克服了其他设计的局限性:1)它采用比CNN更强大的ViT主干网络,有助于提取与关系相关的特征;2)它不引入额外的参数开销,减轻了优化挑战;3)端到端建模使得能够在所有ViT层中提取与关系相关的信息。

2. 与现有方法的比较

RelatiViT的性能显著优于所有基线方法。与现有方法相比,RelatiViT是第一个明确超越仅依赖对象边界框坐标的简单基线的方法。这表明变换器在概念上适合空间关系预测任务,并且我们的端到端建模策略有效地提取了图像中的空间关系。

3. 对未来工作的展望

尽管RelatiViT在空间关系预测方面取得了显著进步,但仍有许多潜在的改进空间和未来的研究方向。例如,可以探索如何进一步优化变换器架构以提高对复杂场景的理解,或者如何将这些技术应用于更广泛的视觉任务中。此外,研究如何将这些模型与其他类型的传感器输入或机器人系统集成,以实现更复杂的交互和任务规划,也是未来工作的重要方向。

4. 数据集和任务的重要性

我们的工作强调了定义精确、无歧义且物理上可信赖的关系类别的重要性,并重新标注SpatialSense数据集。这一过程不仅修正了原始数据集中的一致性问题,还为评估基于视觉信息预测空间关系的方法提供了一个更加严格的基准。

5. 未来的挑战

未来的研究可以集中在改进数据集的质量和多样性上,以更好地捕捉现实世界中的复杂关系。此外,研究如何减少模型在预测时对边界框坐标的依赖,以及如何提高模型对图像内容的敏感性,也是未来工作的关键挑战。最后,探索如何将这些模型扩展到多模态学习和跨领域应用,也是一个值得关注的研究领域。 

关注公众号 AI论文解读

获取最新AI论文解读

posted @   图南CBQ  阅读(32)  评论(0编辑  收藏  举报  
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示