FILIP: FINE-GRAINED INTERACTIVE LANGUAGEIMAGE PRE-TRAINING论文阅读笔记

摘要

目前的图像文本预训练模型通常通过每个模态全局特征的相似性来建模跨模态的交互，然而这会导致缺乏足够的信息；或者通过在视觉/文本token上使用跨模态注意力/自注意力来建模细粒度的交互，但这会降低训练/推理效率。因此作者提出了一种大规模细粒度的交互模型FILIP，通过跨模态交互实现更精细的对齐。同时作者还构建了一个大规模的图像-文本对数据集FILIP300M用于预训练。

方法

FINE-GRAINED CONTRASTIVE LEARNING

跨模态的对比学习想要的是同一个图像文本对经过image encoder得到的全局特征以及经过text encoder得到的特征在embedding space尽可能接近。

CLIP等方法使用编码后的视觉全局特征与文本特征计算相似度，忽略了细粒度的交互（例如word与patch的对齐）。为此作者提出了CROSS-MODAL LATE INTERACTION，设n1是第i张图像的token数，n2是第j个文本的token数，对于第k个视觉token，作者将其与全部n2个文本token计算相似度，并取值最大的一个作为token级别的相似度：

截屏2023-01-10 19.47.00