用于端到端场景图生成的密集关系变换器

场景图生成旨在捕捉图像中对象之间的详细空间和语义关系，由于标签不完整、长尾关系类别和关系语义重叠，这具有挑战性。现有的基于Transformer的方法要么对对象和谓词采用不同的查询，要么对关系三元组采用整体查询，因此学习低频关系的能力往往有限。提出了一种新的基于Transformer的方法，DSGG将场景图检测视为基于一组独特的图形感知查询的直接图预测问题。特别是，每个图感知查询都对图中节点及其所有关系的紧凑表示进行编码，这些表示是通过在训练过程中利用宽松的子图匹配获得的。此外，为了解决关系语义重叠的问题，采用了一种关系蒸馏策略，旨在有效地学习语义的多个实例

关系。在VG和PSG数据集上的广泛实验表明，模型达到了最先进的结果，在mR@50以及mR@100用于场景图生成任务，并在mR@50以及mR@100用于全景场景图生成任务。

场景图生成（SGG）旨在检测并生成场景中所有对象的图形结构，其中边描述了它们的视觉交互或成对关系。图像的这种拓扑表示有助于视觉理解和图像推理任务，如图像字幕生成、视觉问答、跨模型检索和人机交互识别。该任务类似于全景场景图生成（PSG）任务（或其子任务），其中主体和对象也可以属于素材类，实体的语义分割用于评估场景图。

具体来说，给定一张图像，SGG任务的重点是预测所有对象及其类标签、边界框、像素精确分割以及它们与所有其他对象的关系。基于图的场景生成方法通常受到底层目标检测器的高复杂性和场景上下文表示的限制。无偏SGG方法试图在不考虑数据中标签偏差的情况下学习语义关系，然后使用简单的后处理来纠正标签分布。然而，这些技术对同一对对象之间具有多种语义关系的图像存在挑战，并且容易受到关系类别长尾问题的影响。

基于变换器的方法试图为场景图生成提供单级解决方案。传统的基于变换器的方法利用具有共享查询或单独查询的双流网络来估计对象关系。

例如，改进方法采用了一种整体策略，直接预测<主语、谓语、宾语>三元组列表，网络中的每个查询都表示一个单一的三元组。最近基于变换器的场景图生成方法仅依赖于基于对象的匹配来学习查询。然而，它们的受限能力导致了有效学习密集和低频关系的局限性。

引入了一种基于三元组查询的双流网络，该网络使用ad-hoc方法添加伪关系来解决关系类不平衡的问题。然而，它无法全面捕捉图像中的所有关系，即使在使用专用网络分支处理，从低到高和从高到低的频率关系时，也容易受到关系语义重叠问题的影响。

另一个限制是该模型能够捕捉到每个关系类别中的实质性多样性以及多个对象之间存在的关系的相似性。

通过引入一个学习图像对象之间所有关系的通用模型来解决这一差距。

引入了一个图感知查询，如图5-3所示，它作为一个组合查询。此查询学习每个对

象的表示及其与图像中所有其他对象的多重关系。从本质上讲，每个节点都有一个与之相关的唯一的图感知查询。这与现有的基于转换器的架构形成鲜明对比，无论是使用单查询还是三元组查询，由于模型的复杂性不断提高，每个可能的三元组都需要传统的查询，因此难以扩展以生成密集的场景图。

使用这些图感知查询的优点是，无论两个对象之间是否存在多个关系，模型都能学习预测正确的多个关系标签（或没有关系），从而基本上消除了关系语义重叠问题。另一个好处是减少了可训练网络参数的总数，因为节点和关系不需要两个流变换器。

此外，在端到端的上下文中学习这些图感知查询是具有挑战性的。将集合预测问题扩展到基于图感知查询的图预测，对于学习场景图的结构至关重要。为了将学习图中的每个节点及其所有边与真值节点表示进行匹配，采用了一种宽松的子图匹配技术。在存在低频关系的情况下，子图匹配更强调学习整体图结构，而不是图像中存在的特定高频关系，从而消除了长尾关系分布问题。此外，DSGG方法采用了一种重新评分机制，并引入了关系蒸馏，以实现有效的成对关系预测。

随着模型越来越善于处理负作用关系，通过学习图像中所有对象的密集图像关系，标签噪声会降低。

改进的DSGG方法，这是一种端到端的统一技术，它将场景图检测视为一个直接的图预测问题，并估计图中每对节点的多标签关系概率。改进包括4方面优化：

1）为基于Transformer的网络引入了图感知查询，该查询学习图中节点及其所有关系的紧凑表示。

2）引入了一种新的子图匹配来估计真值和估计场景图之间的成本。

3）引入了关系蒸馏，并调整了重新评分模块，以根据实体语义有效地对谓词进行排序和排序。

4）方法在视觉基因组和PSG数据集上具有最先进的性能，大大改善了场景图检测和全景场景图生成任务的视觉语义关系。

SGG网络中使用的不同查询的说明，如图5-3所示。

图5-3 SGG网络中使用的不同查询的说明

在图5-3中，a）多查询变换器网络分别学习实体和谓词。b）基于三元组查询的Transformer网络对每个三元组使用单独的查询。c）提出的图感知查询共同学习对象及其所有关系的紧凑表示。

DSGG架构的说明，如图5-4所示。

图5-4 DSGG架构的说明

在图5-4中，所提出的方法采用单级变换器架构，该架构采用图感知查询来预测场景图。输入图像首先由骨干网处理，然后通过变换器提取组合标记。这些标记用于学习类一致性、边界框和分割。

此外，使用密集关系嵌入模块来学习图像中每个对象之间的成对关系。然后生成预测图，并将其与真值图进行比较，以确定节点的最佳排列。为了对最终关系进行排序，使用了密集关系蒸馏和重新评分模块。

总之，介绍了一种创新的直接图检测方法，用于场景图生成，该方法以端到端的方式同时预测对象及其关系。方法采用了通过松弛子图匹配，从密集场景图中学习到的新颖的图感知查询。组合标记用于学习类、边界框、分割和成对关系的嵌入。此外，将关系蒸馏、重新评分，以及后处理与logit调整相结合，以获得统一的端到端解决方案。在场景图生成（SGG）和全景场景图生成器（PSG）基准数据集上的广泛实验，证明了方法的优越性能，大大超过了最先进的结果。消融研究评估了每个模型组件的贡献，分析了模型在解决与关系语义重叠和长尾问题相关的挑战方面的有效性。