Loading

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks论文阅读笔记

CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks论文阅读笔记

摘要

这是一篇关于利用CLIP模型来提升视觉语言任务性能的论文。CLIP模型是一个可以从大量图片和文字数据中学习通用视觉语言表示的模型,它有很强的零样本和少样本学习能力。这篇论文提出了一种新的方法,叫做CLIP Targeted Distillation (CLIP-TD),它可以将CLIP模型的知识有效地转移给特定的视觉语言任务,比如图像分类、自然语言推理、视觉问答等。这种方法通过在训练过程中使用CLIP模型作为一个辅助教师,来指导目标任务模型学习更好的视觉语言表示。这篇论文在多个视觉语言任务上进行了实验,结果显示了CLIP-TD方法在少样本和全监督条件下都能显著提升目标任务模型的性能,并且超过了其他使用CLIP模型进行微调或者蒸馏的方法。(此段内容来自chatgpt)

方法

Knowledge Distillation

最基础的蒸馏是直接蒸馏CLIP image encoder的cls token以及学生的img token、CLIP text encoder的eos token以及学生的text cls token。方法是直接计算这几个token的L1 measure,然后加到原始任务的loss。

CLIP Targeted Distillation (CLIP-TD)

主要分为三部分:

Token Selective (TS) Distillation with Prior. 最具语义相关性的标记可能会随着实例而变化。因此作者设计了TS从而选择性的对token进行蒸馏。对于给定的一个text sequence \(t_j=\{w0,...,w_z\}\)(z是序列长度),Token Selection Module生成一组概率分布\(S_j=\{s_0,...,s_z\}\)\(S_j\)由两部分构成:\(S_j=\frac{S_{vr}}{|S_{vr}|_1}+\frac{S_{si}}{|S_{si}|_1}\)\(S_{vr}\)就是计算每个text token与image的余弦相似度;\(S_{si}\)是计算每个token对于整个文本在语义和句法上的重要性,作者在这里直接使用了一个pre-trained keyword extractor。

Confidence Weighted (CW) Distillation. 为了解决CLIP的先验知识在实例层面对模型的干扰,作者提出了置信权重蒸馏,根据计算得到的比率r来调整前面提到的损失函数中的权重w:

截屏2023-02-17 15.27.39

截屏2023-02-17 15.27.57

**Adaptive Finetuning (AF) with Contrastive Knowledge. **在最后一个阶段前,作者通过\(L_{AF}\)对base model进行微调,\(L_{AF}=L_{pretraining}+w·L_d\)\(L_{pretraining}\)是指的预训练任务)。

剩下的懒得看了,感觉论文整体讲的不清不楚>V<

posted @ 2023-02-17 15:38  脂环  阅读(289)  评论(0编辑  收藏  举报