Simple Open-Vocabulary Object Detection with Vision Transformers

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract. 将简单的结构与大规模的预训练相结合，导致了图像分类的巨大改进。对于目标检测，预训练和缩放方法还没有很好地建立，尤其是在长尾和开放词汇环境中，那里的训练数据相对较少。在本文中，我们提出了一个将图像-文本模型转移到开放词汇目标检测的强大方案。我们使用标准的视觉Transformer架构，具有最小的修改、对比图像-文本预训练和端到端检测微调。我们对该设置的缩放特性的分析表明，增加图像级别的预训练和模型大小对下游检测任务产生了一致的改进。我们提供了所需的自适应策略和正则化，以在零样本文本条件和单样本图像条件目标检测上获得非常强的性能。GitHub¹上提供了代码和模型。

¹ github.com/google-research/scenic/tree/main/scenic/projects/owl_vit

1 Introduction
　　目标检测是计算机视觉中的一项基本任务。直到最近，检测模型通常仅限于一组小的、固定的语义类别，因为使用大的或开放的标签空间获得定位训练数据既昂贵又耗时。随着强大的语言编码器和对比图像-文本训练的发展，这种情况发生了变化。这些模型从网络上大量可用的松散对齐的图像-文本对中学习图像和文本的共享表征。通过利用大量的图像-文本数据，对比训练在零样本分类性能和其他基于语言的任务方面取得了重大改进[33, 19, 44]。

　　最近的许多工作旨在将这些模型的语言能力迁移到目标检测[12, 26, 45, 46, 20]。例如，这些方法使用针对图像裁剪的嵌入提取[12]、使用图像级标签的弱监督[46]或自训练[26, 45]。在此，我们提供了一个简单的架构和端到端的训练方案，即使在训练过程中没有看到的类别上，也可以在没有这些方法的情况下实现强大的开放词汇检测。

　　我们从视觉Transformer架构[22]开始，该架构已被证明具有高度可扩展性，并在大型图像-文本数据集上对其进行对比预训练[44, 19]。为了将模型迁移到检测，我们做了一组最小的更改：我们删除了最终的token池化层，而是将轻量级分类和框头添加到每个Transformer输出token。通过将固定的分类层权重替换为从文本模型[2](图1)中获得的类名嵌入，可以实现开放词汇分类。我们使用二部匹配损失[6]对标准检测数据集上的预训练模型进行微调。图像和文本模型都经过了端到端的微调。

　　我们分析了这种方法的缩放特性，发现增加模型大小和预训练持续时间继续提高检测性能，超过200亿个图像-文本对。这是重要的，因为与检测数据相比，图像-文本对是丰富的，并且允许进一步缩放。

　　我们的模型的一个关键特征是它的简单性和模块性。由于我们模型的图像和文本组件没有融合，因此我们的模型对查询表征的来源是不可知的。因此，我们可以在不进行修改的情况下使用我们的模型作为单样本检测学习器，只需使用图像衍生嵌入进行查询。单样本目标检测是仅基于显示目标的查询图像块来检测新目标的具有挑战性的问题[16, 4, 31]。图像条件下的单样本能力是文本条件下检测的强大扩展，因为它允许检测难以通过文本描述(但易于在图像中捕捉)的目标，例如专业技术部件。尽管使用了非专门针对该问题的通用架构，但我们将对未见过的COCO类别(在训练期间进行)的单样本检测SOTA技术从26.0提高到41.8 AP50，提高了72%。

　　对于开放词汇文本条件检测，我们的模型在LVIS数据集上实现了34.6%的总体AP和31.2%的未见类的AP_rare。

　　总之，我们做出了以下贡献：

一种将图像级预训练迁移到开放词汇表目标检测的简单而强大的方案。
现有技术的大幅度小样本(图像条件)检测。
详细的缩放和消融研究，以证明我们的设计是合理的。

　　我们相信，我们的模型将成为一个强大的基准，可以在各种框架中轻松实现，并作为未来研究需要开放词汇定位任务的灵活起点。我们将我们的方法称为"开放世界定位的视觉Transformer"，简称OWL-ViT。

2 Related Work

对比视觉-语言预训练。长期以来，将图像和文本嵌入共享空间的想法一直被用于实现"零样本"泛化[10, 36, 40]。由于对比损失方面的创新和更好的架构，最近的模型可以从网络衍生的图像和文本对中学习一致的视觉和语言表征，而不需要明确的人工注释。这大大增加了可用的训练数据，并导致零样本分类基准的大幅改进[33, 19, 44, 32]。虽然最近的任何图像-文本模型都与我们的方法兼容，但我们的模型和数据集与LiT [44]和ALIGN [19]最相似。

封闭词汇目标检测。传统上，目标检测模型是为封闭词汇设置而制定的。最初，"一阶段"和"二阶段"检测器，如SSD [28]和Faster RCNN [34]，分别激增。最近，DETR [6]表明，目标检测可以被定义为一个集合预测问题，使用二部匹配进行训练，并获得有竞争力的结果。值得注意的是，这种架构不需要区域建议生成或非最大值抑制。后续工作提出了更有效的DETR变体[48, 41, 37]，包括没有"解码器阶段"的架构[9]。我们的工作也简化了DETR，因为我们不使用解码器。与使用额外"detection" token的[9]相比，我们通过直接从每个图像token预测一个目标实例来进一步简化模型。

长尾和开放词汇目标检测。为了超越封闭的词汇，可以用语言嵌入来代替固定的分类层，以创建开放词汇检测器[2]。开放词汇目标检测最近在将对比训练的图像-文本模型和经典目标检测器相结合方面取得了很大进展[12, 20, 26, 45, 46, 42]。该任务中的主要挑战是如何将图像-文本主干的图像级表征迁移到检测中，尽管稀有类的定位注释很少。有效利用图像-文本预训练是至关重要的，因为它允许在不需要昂贵的人工注释的情况下进行缩放。已经提出了各种方法。ViLD [12]提取通过将CLIP或ALIGN应用于来自类不可知区域建议网络(RPN)的裁剪图像区域而获得的嵌入。然而，RPN限制了对新目标的泛化性能，ViLD的两步提取训练过程加剧了这一性能。RegionCLIP也使用多阶段训练，在说明文字数据上生成伪标签，然后进行区域文本对比预训练，并迁移到检测。相比之下，我们的方法在公开的检测数据集上端到端地微调图像和文本模型，这简化了训练并提高了对未见类的泛化能力。MDETR [20]和GLIP [26]对整个图像使用单个文本查询，并将检测公式化为短语基础问题。这限制了每次前向传播可以处理的目标类别的数量。我们的架构更简单、更灵活，因为它不执行图像-文本融合，并且可以处理多个独立的文本或图像派生查询。OVR-CNN [42]与我们的方法最相似之处在于，它对图像-文本模型进行微调，以在有限的词汇表上进行检测，并依赖于图像-文本预训练来泛化为开放词汇表。然而，我们在所有建模和损失函数的选择上都有所不同。我们使用ViT [22]代替他们的ResNet [15]，使用类似DETR的模型代替他们的Faster RCNN [34]，使用LiT [44]中的图像文本预训练代替他们的PixelBERT [18]和视觉定位损失。与我们的方法正交，Detic [46]通过在只有图像级注释可用的示例上仅训练分类头，在弱监督的情况下提高了长尾检测性能。

　　我们注意到，在我们对开放词汇检测的定义中，目标类别可能在检测训练和测试之间重叠。当我们特别提到在训练期间没有看到定位实例的检测类别时，我们使用术语零样本。

图像条件检测。与开放词汇检测相关的是图像条件检测的任务，它指的是检测与单个查询图像匹配的目标的能力，该查询图像显示了所讨论类别的目标[4, 16, 7, 31]。这个任务也被称为单样本目标检测，因为查询图像本质上是单个训练示例。基于图像的查询允许在目标名称未知的情况下进行开放世界检测，例如，对于独特的目标或专门的技术部件。我们的模型可以在不进行修改的情况下执行这项任务，只需使用图像派生的嵌入而不是文本派生的嵌入作为查询。最近关于这个问题的工作主要集中在架构创新上，例如在查询和目标图像之间使用复杂形式的交叉注意力[16, 7]。相反，我们的方法依赖于一个简单但大的模型和大量的图像-文本预训练。

3 Method

　　我们的目标是创建一个简单且可扩展的开放词汇表目标检测器。我们专注于基于Transformer的标准模型，因为它们的可扩展性[22]和在封闭词汇检测[6]方面的成功。我们提出了一个分两个阶段的方案：

在大规模图像-文本数据上对比地预训练图像和文本编码器。
添加检测头，并对中等大小的检测数据进行微调。

　　然后能够以不同的方式查询模型，以执行开放词汇表或小样本检测。

3.1 Model

结构。我们的模型使用标准的视觉Transformer作为图像编码器，使用类似的Transformer架构作为文本编码器(图1)。为了使图像编码器适应检测，我们去除了token池化层和最终投影层，而是线性投影每个输出token表征，以获得用于分类的每个目标图像嵌入(图1，右)。因此，预测目标的最大数量等于图像编码器的token的数量(序列长度)。这在实践中不是一个瓶颈，因为我们模型的序列长度至少为576(输入大小为768×768的ViT-B/32)，这大于当今数据集中的最大实例数(例如，LVIS [13]的294个实例)。框坐标是通过一个小MLP传递token表征来获得的。我们的设置类似于DETR [6]，但通过移除解码器来简化。

开放式词汇目标检测。对于检测到的目标的开放词汇分类，我们遵循先前的工作，在分类头的输出层中使用文本嵌入，而不是学到的类嵌入[2]。我们称之为查询的文本嵌入是通过文本编码器传递类别名称或其他文本目标描述来获得的。然后，模型的任务变成为预测每个目标的边界框和每个查询应用于该目标的概率。每个图像的查询可能不同。因此，实际上，每个图像都有自己的判别标签空间，该空间由一组文本字符串定义。这种方法将经典的封闭局部目标检测作为特殊情况，其中目标类别名称的完整集合被用作每个图像的查询集。

　　与其他几种方法[26, 20]相比，我们没有将一个图像的所有查询组合成单个token序列。相反，每个查询都由一个单独的token序列组成，该序列表示单个目标描述，并由文本编码器单独处理。此外，我们的架构不包括图像和文本编码器之间的融合。尽管早期融合在直觉上似乎是有益的，但它显著降低了推理效率，因为对查询进行编码需要通过整个图像模型进行前向传播，并且需要对每个图像/查询组合重复。在我们的设置中，我们可以独立于图像来计算查询嵌入，使我们能够在每个图像上使用数千个查询，比早期融合[26]的查询数量多得多。

单样本或小样本迁移。我们的设置不要求查询嵌入来自文本。由于图像和文本编码器之间没有融合，我们可以在不修改模型的情况下向分类头提供图像而不是文本派生嵌入作为查询。通过使用原型目标图像的嵌入作为查询，我们的模型可以执行图像条件的单样本目标检测。使用图像嵌入作为查询允许检测难以在文本中描述的目标。

3.2 Training

图像级对比预训练。我们使用与LiT [44]相同的图像-文本数据集和损失对比地预训练图像和文本编码器(图1，左)。我们用随机初始化从头开始训练这两个编码器，并采用图像和文本表征的对比损失。对于图像表征，我们使用多头注意力池化(MAP)[25, 43]来聚合token表征。文本表征是从文本编码器的最终序列结束(EOS) token中获得的。或者，我们使用公开的预训练CLIP模型[33](详细信息见附录A1.3)。

　　我们的纯编码器架构的一个优点是，几乎所有模型的参数(图像和文本编码器)都可以从图像级预训练中受益。检测专用头最多包含1.1%的模型参数(取决于模型大小)。

训练检测器。用于分类的预训练模型的微调是一个研究得很好的问题。分类器，尤其是大型Transformer，需要经过仔细调整的正则化和数据扩充才能发挥良好的性能。分类器训练的方案现在已经在文献中得到了很好的确立[39, 38, 3]。在这里，我们的目标是为开放词汇检测提供一个类似的微调方案。

　　除了我们提供一组目标类别名称作为每个图像的查询之外，我们模型的一般检测训练过程几乎与封闭词汇检测器的检测训练过程相同。因此，分类头在由查询定义的图像标签空间上而不是在固定的全局标签空间上输出logits。

　　我们使用DETR [6]引入的二部匹配损失，但将其适用于长尾/开放词汇检测，如下所示。由于对检测数据集进行详尽注释所需的努力，具有大量类的数据集以联合方式进行注释[13, 24]。这样的数据集具有非联合标签空间，这意味着每个目标可以具有多个标签。因此，我们使用focal sigmoid交叉熵[48]而不是softmax交叉熵作为分类损失。此外，由于并非所有目标类别都在每个图像中进行了注释，因此联合数据集为每个图像提供了正(存在)和负(已知不存在)注释。在训练过程中，对于给定的图像，我们使用其所有正和负注释作为查询。此外，我们根据类别在数据中的频率比例随机抽样，并将其添加为“伪负”，使每张图像至少有50个负注释[47]。

　　即使是最大的联合检测数据集也只包含≈10⁶个图像，与用于预训练的数十亿个图像级弱标签相比，这是很小的[29, 43, 33, 19]。众所周知，在这种大小的数据集(如ImageNet-1k)上训练的大型Transformer需要仔细调整正则化和数据扩充才能执行良好[39, 38, 3]。我们发现检测训练也是如此，并在第4.6节中提供了使用大型Transformer实现非常高性能所需的增强和正则化的详细分解。

补充材料——Focal Loss：减少分类良好的样本的相对损失，从而更加关注难以分类的错误样本，实验证明采用该损失能够在大量简单背景样本的情况下训练高精度的密集目标检测器

4 Experiments

4.1 Model Details

　　对于图像模型，我们使用标准的视觉Transformer [22]。我们遵循[22]中关于模型大小、块大小以及Transformer与混合架构的命名法。例如，B/32是指块大小为32的ViT-Base，而R50+H/32是指步长为32的混合ResNet50+ViT-Huge。

　　对于文本模型，我们使用类似于图像模型的Transformer架构。除非另有说明，否则我们使用具有12层、隐藏大小(D)为512、MLP大小为2048和8个头(这比B小)的文本模型。

　　图像和文本模型首先在图像级别上进行预训练，然后在目标级别的注释上进行微调。预训练是在LiT [44](在他们的符号中是uu)的36亿个图像-文本对的数据集上从头开始执行的。

　　预训练后，将删除token池化层，并添加检测头(请参见第3.1节和图1)。该模型为每个输出token预测一个框。我们在预测的框坐标上添加了一个偏差，以便在将token序列排列为2D网格时，每个框默认以与预测该框的token相对应的图像块为中心。因此，该模型预测与默认位置的差异，类似于区域建议网络[34]预测相对于预定义锚的偏移的方式。尽管稍后在Transformer网络中，图像块和token表征之间没有严格的对应关系，但以这种方式进行带偏框预测可以加快训练并提高最终性能(第4.6节)。

　　我们在大多数模型中使用224×224的图像大小进行预训练(见附录A1.3)，并使用更大的大小进行检测微调和评估(如表1所示)。为了在预训练后改变模型输入大小，我们使用线性插值调整图像位置嵌入的大小。模型以256的批量大小进行微调，最多可执行140000个步骤(较大的模型则较少)。我们使用JAX [5]和Scenic库[8]来实现我们的模型。

4.2 Detection Data

　　由于我们模型的开放词汇设计，我们可以通过用类名字符串替换整数标签，轻松地将具有不同标签空间的数据集组合起来。对于目标级训练，我们使用总共约200万张图像的公开可用检测数据集(如图所示，OpenImages V4 (OI) [24]、Objects 365 (O365) [35]和/或Visual Genome (VG) [23])。对COCO [27]、LVIS [13]和O365进行评估。有关数据集的详细信息，请参阅附录A1.2。

4.3 Open-Vocabulary Detection Performance

　　我们使用LVIS v1.0 val [13]作为我们的主要基准，因为该数据集有一条罕见类别的长尾，因此非常适合测量开放词汇表的性能。为了进行评估，我们使用所有类别名称作为每个图像的查询，即LVIS中每个图像的1203个查询。如第4.6节所述，类预测通过七个提示词模板进行组合。一些LVIS类别出现在我们用于训练的数据集中。因此，为了衡量看不见的类别的性能，我们从训练数据中删除了所有带有与LVIS “rare”类别匹配标签的框注释。因此，指标衡量我们模型的“零样本”性能，即模型没有看到这些类别的本地化注释。

　　表1显示了我们的模型和一系列先前工作的LVIS结果。我们将其与不在完整LVIS数据集上训练的开放词汇模型进行了比较。通过对LVIS部分(例如“base”类别[12])进行训练获得的结果显示为灰色。我们的方法在开放词汇表(AP^LVIS)和零样本()场景中的架构规模方面都具有很强的竞争力。我们最好的模型实现了31.2%的，并使用了公开可用的CLIP主干。

　　为了与之前的工作进行比较，我们还提供了MS-COCO 2017和Objects 365的结果。对于这些评估，我们在OI+VG而不是O365+VG上训练模型，以测量泛化。然而，大多数COCO和O365类别都存在于训练数据中，我们不会删除它们，因为它们构成了可用注释的很大一部分。因此，我们的COCO和O365结果不是"零样本"，而是测试我们的模型的开放词汇迁移能力。我们的最佳模型(CLIP L/14；见表1)实现了43.5%的AP^COCO；在没有O365的情况下训练的模型版本实现了15.8%的AP^O365(附录A1.8中的进一步结果)。

4.4 Few-Shot Image-Conditioned Detection Performance

　　如第3.1节所述，我们的模型可以执行单样本或小样本目标检测，只需将文本派生的查询嵌入替换为图像派生的查询嵌入式即可。在小样本检测中，我们得到一个查询图像，其中一个框围绕着一个示例目标。目的是在新的目标图像中检测与示例相同类别的目标。为了获得查询嵌入，我们首先对查询图像进行推理，并选择与查询框具有高框重叠的预测检测(经过一些过滤；详细信息请参见附录A1.7)。然后，我们使用该预测的图像嵌入作为对测试图像的查询。

　　为了评估这项任务，我们遵循[16]中描述的程序：在检测训练过程中，我们提出一些COCO类别进行评估，此外还有出现在我们的检测训练数据中的所有同义和语义后代类别。我们不修改图像文本预训练阶段。

　　尽管我们的模型不是专门为这项任务设计的，但在四个COCO划分中，我们的模型以72%的优势大大优于最佳任务特定的先前工作，如表2所示。与之前的工作不同，我们的模型在推理过程中不会卷入查询图像和目标图像特征，这使我们能够在数千个不同的图像嵌入上同时高效地运行我们的模型，增强了它的实用性。

　　为了从单个查询示例(单样本)迁移到小样本预测，我们可以简单地对每个类别的多个查询示例的图像嵌入进行平均。这导致了进一步的显著改进(表2，底部一行)。

4.5 Scaling of Image-Level Pre-Training

　　在确定我们的方法实现了强大的开放词汇、零样本和图像条件检测性能之后，我们接下来分析其缩放特性和设计选择。在本节中，我们将重点介绍图像级别的预训练。在第4.6节中，我们将描述将预训练模型成功迁移到检测所需的微调方法。

　　为了了解图像级预训练与最终检测性能的关系，我们系统地探讨了预训练持续时间、模型大小和模型架构的维度。对于每种配置，我们都在一系列学习率和权重衰减范围内对几个模型进行了预训练，然后进行了微调，因为这些参数的最佳设置因配置而异(有关涵盖的设置列表，请参阅附录A1.3)。

　　我们首先考虑图像级别的预训练一般如何迁移到检测。图3显示了我们研究涵盖的所有架构、大小和训练前持续时间配置的图像级性能(零样本ImageNet精度)和目标级性能(零样本)之间的关系(显示了学习率和权重衰减的最佳结果)。我们发现，虽然最好的目标级模型通常也具有良好的图像级性能，但事实并非如此：许多在图像级任务中表现良好的模型在检测方面表现不佳。换言之，高图像级性能对于检测的强迁移是必要的，但还不够。

　　哪些因素有助于强迁移？先前的分类工作发现，预训练和模型大小必须一起缩放才能实现最佳迁移——在大数据上过度训练小模型甚至会导致性能降低[21]。我们发现，对于迁移到检测，这种影响甚至更强。随着预训练量的增加，检测性能最初会增加，但随后会达到峰值，而图像级别的性能会继续增加(图3，右)。然而，通过增加模型大小和改进检测微调，可以扩展预训练检测性能的积极趋势(图3，右，R50+H/32)。

　　考虑到增加模型大小可以提高性能，一个重要的问题是哪些架构具有最有利的缩放特性。对于分类，已经发现基于Transformer的架构在预训练计算方面比ResNet更高效，并且混合ResNet-Transformer架构是最高效的，至少在较小的计算预算下[22]。此外，研究发现，当预训练数据很少时，ResNet会更好，但随着可用数据的增加，它会被Transformer超越[22, 38]。我们进行了类似的检测分析。使用检测推理计算作为模型大小的衡量标准，并为每个大小选择最佳超参数和预训练持续时间，我们发现在小的模型大小下，混合模型往往比纯ViT更有效，而ResNet在我们的设置中表现不佳(图4)。然而，对于大型模型，纯ViT超过了混合模型。为了开始解释这种差异，我们比较了整体和零样本检测性能，发现混合模型和纯Transformer之间存在明显的分离(至少在小尺寸的模型上；图4，右)。这可能表明，与混合架构相比，Transformer更倾向于学习语义泛化(对于高零样本性能来说是必要的)，这在可能进行大规模预训练时可能是有益的。总的来说，我们的发现超出了分类的范围，并表明进一步的扩展工作应该集中在纯Transformer架构上。

4.6 How to Unlock Pre-Training Potential for Detection

　　在第4.5节中，我们发现强大的图像级性能对于强大的检测性能是必要的，但还不够。现在，我们将描述在图像级预训练后获得强大的开放词汇检测性能的方法。最终，我们方案的所有组成部分都旨在减少对相对较少的可用检测注释的过拟合，以及注释所覆盖的较小语义标签空间。我们的方法依赖于 (i) 稳定优化的措施，(ii) 仔细使用可用的检测训练数据，以及 (iii) 一系列数据增强。我们在下面详细讨论这些消融，其中斜体数字(例如(15))指的是表3中的单个消融实验。重要的是，零样本性能()的最佳方案不一定能最大化分布内性能(AP^OI)。我们在附录A1.9中讨论了这一发现和进一步的消融。

稳定优化。微调的目标是从可用的检测数据中学习，而不破坏在预训练期间学到的表征。为此，我们采取以下措施。首先，在微调过程中，我们将文本编码器的学习率降低到2×10⁻⁶(即，比图像编码器学习率小100×)(3)。这减少了过拟合，可能是通过防止文本编码器“忘记”在预训练期间所学习的语义，同时对检测标签的小空间进行微调。有趣的是，完全冻结文本编码器会产生糟糕的结果。其次，如第3.1节所述，我们将预测的框坐标偏置(11)为以2D网格上相应token的位置为中心。这加快了学习并提高了最终性能，可能是通过在损失内使用的二部匹配过程中打破对称性。第三，对于较大的模型，我们在图像和文本编码器上使用概率为0.1的随机深度正则化[17, 1]，并使用较短的训练时间表(第A1.3节)。

仔细使用可用的检测数据。正如我们的消融所示(表3)，检测训练数据的数量是我们模型性能的限制因素。因此，我们结合了多个数据集——如表1所示，我们研究(1-2)中大多数模型为OI+VG，最大模型为O365+VG。此外，我们注意保持可用的注释没有噪声：我们从指示此类注释(例如OI)的数据集中删除“组”注释和“未详尽注释”类别(14)。这些注释为模型提供了相互冲突的监督，因为它无法学习(除非通过记忆)哪些注释是详尽的，哪些不是。移除它们可以提高较大模型的性能。此外，我们删除了随机裁剪增加留下的部分框，因为如果目标的大部分实际上被裁剪掉了，这些框也会提供冲突的监督。保留至少占其原始面积60%的实例比保留所有(12)或仅保留未剪切的(13)实例效果更好。

增强。最后，我们通过增强图像和查询来丰富可用的检测标签。在图像上，我们使用随机裁剪(如上所述移除部分裁剪的框)。此外，我们使用类似于"大尺度抖动"[11]的图像尺度增强。然而，我们不是简单地调整图像的大小和填充图像，而是将几个缩小的图像平铺成一个大的“马赛克”图像。我们随机采样单个图像、2×2网格和3×3网格，概率分别为0.5、0.33和0.17，分别为(7-9)。为了增加查询(类别名称)，我们在训练期间使用随机提示词，并在几个提示词上使用集合预测进行评估(4-5)。在评估期间，我们使用80个CLIP提示词进行训练和组合，而不是7个"最佳"CLIP提示词(如[33]中所定义)。最后，我们对每个图像随机采样伪负标签，直到至少有50个负标签[47]。附录A1.5和A1.6提供了进一步的实现细节。

5 Conclusion

　　我们提出了一个将对比训练的图像-文本模型迁移到检测的简单方法。我们的方法在具有挑战性的LVIS基准上实现了与更复杂的方法相竞争的零样本检测结果，并在图像处理检测方面大大优于现有方法。我们的结果表明，对数十亿个图像-文本示例的预训练赋予了强大的泛化能力，即使只有相对有限的目标级数据可用(数百万个示例)，也可以将其迁移到检测中。在我们的分析中，我们解开了图像级表征成功迁移到检测的决定因素，并表明在更多数据上预训练简单、可扩展的架构会导致强大的零样本检测性能，反映了图像分类任务的先前观察结果。我们希望我们的模型将成为进一步研究开放世界检测的有力起点。

Appendix

　　附录提供了更多的例子、结果和方法细节。关于剩余的问题，请参考github.com/google-research/scenic/tree/main/scenic/projects/owl_vit上的代码。

A1.1 Qualitative Examples

A1.2 Detection Datasets

A1.3 Hyper-parameters

A1.4 Pre-Training Image Resolution

A1.5 Random Negatives

A1.6 Image Scale Augmentation

A1.7 One-shot (Image-Conditioned) Detection Details

A1.8 Detection results on COCO and O365

A1.9 Extended Ablation Study

posted on 2024-05-27 19:23 穷酸秀才大草包阅读(291) 评论(0) 收藏举报

刷新页面返回顶部

穷酸秀才大艹包

Simple Open-Vocabulary Object Detection with Vision Transformers

导航

公告