Learning Transferable Visual Models From Natural Language Supervision
首先是制作一个足够大的图片与文本的集合:
现有的数据集都不能满足要求。所以作者制作了一个大致4亿个图片与文本对。对于文本来说,包含一个query集合中的一个。制作query的时候,选取了50,0000个query(基础query集合,选择的标准是在英文的维基百科上起码出现了100次的词。还通过一些方式进行了扩充,原文的说法是有较高的点互信息的词。一些搜索量大于某一特定值的文章标题,还有WordNet中那些没有被放进query list中的同义词也被扩充了)。但是平衡了每一个query对应的图片等个数。
整体的approach:
关于模型的efficiency的问题:
如果采用了一个ConvNet和一个transformer-based text encoder的话,后者的这样一个transformer是2x的大于CNN的模型。这比中间那个橙色的线,bag of words的baseline还要拉跨,主要表现就是不efficient。
不同与普通的language model需要输出完全相同的标注,作者发现这样不是很effificient,所以直接采用了caption和图片匹配的方式。采用了对比学习的方式来学习。在bags of words的基础上进行改动,将学习目标换成了contrastive learning之后,efficiency就提高了。具体的来讲就是,学习了一个多模态的嵌入空间。在一个batch有N个样本的情况下,在image encoder和text encoder输出之后,最大化正确的N对cosine similarity。
最小\(N^2 - N\)对样本之间的cosine similarity。
作者没有采用的方法包括了self-supervised中的non-linear projection,用了一个linear projection。
没有用其他的初始化策略,去除了text transformation methods(感觉像是text的aug)。图片的aug也只有crop。再加上一个温度系数\(\tau\)。
选择和放缩模型:
作者选择了两种模型,一个是ResNet-D,平滑了rect-2 blur pooling。将global average pooling用一个attention pooling来改进。其中这个transformer类型的层,是以global average-pooled representation作为query。第二个vision的结构是ViT,改动比较少:在patch embbeding和position embedding结合之后,加了一个layer normalization。然后实现的时候,使用了一点不一样的初始化策略。
text encoder的结构就是普通的transformer,63-M的大小,12层、512宽,8个attention head。最大的vocab size 49512。最长的sequence length是76。在scale的时候,只放缩宽度,不考虑深度。作者发现这个模型的影线很小。
CLIP的核心实现:
训练的scale策略,5个ResNet,3个vit。ResNet-50, a ResNet-101, RN50x4, RN50x16, and RN50x64。 ViT-B/32, a ViT-B/16, and a ViT-L/14。最后使用的 32,768的batch size。使用了gradient checkpoint。半精度。The largest ResNet model, RN50x64, took 18 days to train on 592 V100 GPUs while the largest Vision . Transformer took 12 days on 256 V100 GPUs。还有一个vit使用336的pixel resolution。
Zero-Shot transfer:
Visual N-grams首先研究了zero-shot的transfer。他们的approach学习了一个大小为142806的视觉n-grams的词典参数。优化n-grams的方法是用一个可以微分的Jelinek-Mercer smoothing 来最大化所有的text n-grams对于一张图片的概率。为了实现zero-shot transfer,他们将每一类的名字转化为n-gram的表示,然后根据模型区计算它的概率,预测给出最大概率的那一个。
为了实现zero-shot的transfer,我们需要做的事情是:
直接将文本扔进text encoder里面得到分类器的weights,然后把图片扔进image encoder里面,得到embeddings,计算余弦相似度就可以。与普通的softmax相比,主要区别就是,weights和inputs都是normalize过的,没有bias,加上了temperature scaling。
这里给了个表格,说明了与visual n-grams的性能差异。
prompt engineering and emsemble:
主要就是说,如果一个text有context的话,会涨点。在image net上,仅仅使用A photo of a {label}的方式就可以涨1.3个点。
还有一些customized prompt会帮组zero-shot learning。尤其是在一些fine-grained的数据集上。Oxford-IIIT Pets:A photo of a {label}, a type of pet.对于OCR数据集来说,在文本或者数字旁边使用quotes会提升性能。
在卫星图上,a satellite photo of a {label}会work。
ensemble就是使用A photo of a big {label} 和A photo of a small {label}这种东西,然后把他们在embedding space里面进行融合。在imagenet上涨点超过3.5个点。加在一起,他们一共涨点5个。一个比较直观的图如下:
对于模型的表现,作者在27个数据集上进行了实验。发现在16个数据集上表现的更好:
对比的对象是一个res50,后面加了一个logistic classfier。Stanford Cars and Food101上领先了28.9和21.1个点。但是在Flowers102 and FGVCAircraft,CLIP就拉了。作者推测的主要原因是,由于CLIP的pretrain里面,确实没有这些类别的图片,所以导致比较差。在一些general的分类上,CLIP和r50势均力敌,稍微优于r50。在一些动作识别的数据集上会好一些,作者认为是因为文本的编码器有更多动词的监督信号。
作者的分析是CLIP is quite weak on several specialized, complex, or abstract tasks (在一些高度特殊化的,复杂且抽象的图像上,就不会work)。such as satellite image classifification,lymph node tumor detection (PatchCamelyon), counting objects in synthetic scenes (CLEVRCounts), self-driving related tasks such as
German traffific sign recognition (GTSRB), recognizing distance to the nearest car (KITTI Distance).
论文之后的内容主要在聊与few-shot的关系,以及怎么把few-shot与zero-shot联系起来。CLIP与模型容量,错误率之间的关系。
CLIP在representation learning上的表现。不使用fine-tune,而是采用linear evaluation。
接下里讨论,Natural distribution shift。
CLIP在这个领域也是降维打击:
但是在一些真的out of distribution的数据集上,CLIP还是有一些问题。
将他和人类对性能相比,CLIP觉得难的,人也觉得难:
之后是对数据集本身进行了一些分析。主要是Data的overlap问题。
关于CLIP的一些局限性:
-
作者认为,仅仅与baseline打平不是最终目标。因为与这些数据集完全监督的SOTA比起来,CLIP还打不过他们。需要将当前的计算量放大到1000x才能达到现在的SOTA,这在当前的硬件条件下是做不到的。
-
作者认为,CLIP在某些专用型特别强的task上不太work。比如,在一些细粒度的数据集上,或者一些比较抽象、对称的task。这些task的图片,在CLIP的pre-train的数据集上出现的比较少。作者认为,还有很多task上,CLIP是在瞎猜。
-
CLIP在很多自然的图片分布上效果不错,但是在一些真的out-of-distributiob的数据集上还是不太行,比如在OCR上。在rendered text上表现相当不错,因为这在CLIP的pre-training上十分常见。但是在手写数字体识别上就拉垮了,只有88%的准确率。因为从semantic和near-duplicate nearest-neighbor retrieval上没找到。