【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training
GLIP
CVPR 2022 (Oral, Best Paper Finalist)
读论文思考的问题
-
论文试图解决什么问题?写作背景是什么?
问题:
-
如何将视觉-语言预训练技术应用在以目标检测为代表的 fine-grained image understanding 上面?
-
如何在增加训练数据的同时,使目标检测模型具有良好的语义理解能力,能够预测多样的目标,并且有一定的 domain transfer 能力?
背景:
-
以往的视觉理解(如目标检测)模型针对图片输入,只能预测一个固定集合中的各个目标类别的概率
-
CLIP 通过 image-text alignment 的方式,能提取包含丰富语义信息的图像特征,但这种特征是全图描述的特征,对于 object-level 的 image understanding 任务来说远远不够
-
fine-grained image understanding 需要提取图片的 object-level 的视觉特征
-
-
文章提出了什么样的解决方法?
-
使用 phrase grounding 作为模型的预训练任务,即将描述图片的文本中的短语和图片中目标的区域进行对应;将目标检测看作是一种无上下文的 phrase grounding 任务,对应输入文本是通过间隔符分隔的各个类组成的长”句子”
-
用2个编码器,提取文本短语和图片中不同区域的特征,通过点积计算出两种特征之间对应的alignment score(类似 CLIP 的做法),从而实现以对齐为目标的优化
-
-
你觉得解决方法的关键之处在哪里?
- 将 object detection 看作是一种 phrase grounding 问题,使得检测器能够同时使用 detection 和 grounding 的数据来进行训练,且通过 teacher GLIP 可以生成大量的 grounding 数据,提升模型能力
-
这个解决方法的局限性在哪里?有没有更好的解决方法?
- 模型引入了 detector 用于检测局部目标的特征,这可能使得模型的性能受限于 detector 本身的性能(虽然 Dynamic Head 本身性能已经很不错)
-
文章是通过设计什么样的实验来支撑其解决方法的有效性的?这些实验你觉得有效吗?
实验:
-
COCO, LVIS 上的 zero-shot 和 few-shot 迁移性能
-
Flickr30K 上的 grounding 性能
-
不同的预训练数据对模型迁移性能的影响
-
Object Detection in the Wild 实验:数据高效性和 prompt tuning 实验
-
要点
-
两个任务的统一:object detection 可以看作是无上下文的 phase grounding,phase grounding 可以看作是有上下文语义的 object detection 任务
-
object detection as phrase grounding: Prompt = “Detect: person, bicycle, car, ... , toothbrush”
-
提出使用 cross attn 来进行两种模态信息之间的 deep fusion,做更好的特征融合
-
针对 GLIP 提出了两种 prompt tuning 方式:人工设计 prompt 以及只对 language model 编码出的特征进行 fine-tune
问题
-
之前的固定集合的分类是否能看作是一种 soft 的 visual-language alignment?
-
region-word alignment score 的 gt 是怎么得到的呢?
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 25岁的心里话