【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training

GLIP
CVPR 2022 (Oral, Best Paper Finalist)

读论文思考的问题

论文试图解决什么问题？写作背景是什么？

问题：
- 如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面？
- 如何在增加训练数据的同时，使目标检测模型具有良好的语义理解能力，能够预测多样的目标，并且有一定的 domain transfer 能力？
背景：
- 以往的视觉理解（如目标检测）模型针对图片输入，只能预测一个固定集合中的各个目标类别的概率
- CLIP 通过 image-text alignment 的方式，能提取包含丰富语义信息的图像特征，但这种特征是全图描述的特征，对于 object-level 的 image understanding 任务来说远远不够
- fine-grained image understanding 需要提取图片的 object-level 的视觉特征
文章提出了什么样的解决方法？
- 使用 phrase grounding 作为模型的预训练任务，即将描述图片的文本中的短语和图片中目标的区域进行对应；将目标检测看作是一种无上下文的 phrase grounding 任务，对应输入文本是通过间隔符分隔的各个类组成的长”句子”
- 用2个编码器，提取文本短语和图片中不同区域的特征，通过点积计算出两种特征之间对应的alignment score（类似 CLIP 的做法），从而实现以对齐为目标的优化
你觉得解决方法的关键之处在哪里？
- 将 object detection 看作是一种 phrase grounding 问题，使得检测器能够同时使用 detection 和 grounding 的数据来进行训练，且通过 teacher GLIP 可以生成大量的 grounding 数据，提升模型能力
这个解决方法的局限性在哪里？有没有更好的解决方法？
- 模型引入了 detector 用于检测局部目标的特征，这可能使得模型的性能受限于 detector 本身的性能（虽然 Dynamic Head 本身性能已经很不错）
文章是通过设计什么样的实验来支撑其解决方法的有效性的？这些实验你觉得有效吗？

实验：
1. COCO, LVIS 上的 zero-shot 和 few-shot 迁移性能
2. Flickr30K 上的 grounding 性能
3. 不同的预训练数据对模型迁移性能的影响
4. Object Detection in the Wild 实验：数据高效性和 prompt tuning 实验

要点

两个任务的统一：object detection 可以看作是无上下文的 phase grounding，phase grounding 可以看作是有上下文语义的 object detection 任务
object detection as phrase grounding: Prompt = “Detect: person, bicycle, car, ... , toothbrush”
提出使用 cross attn 来进行两种模态信息之间的 deep fusion，做更好的特征融合
针对 GLIP 提出了两种 prompt tuning 方式：人工设计 prompt 以及只对 language model 编码出的特征进行 fine-tune