CLIP

这个东西大体就是说,之前都是用Imagenet这种一个图片对应一个确定的分类,这样你的输出层softmax就是固定数量的,比如1000选一。

CLIPS可以学习视觉信息和语义信息的对应,用对比学习的方法,这样就可以用大量的社交网络上爬下来的图片以及图片的caption进行训练。说白了就是想用文本(一句话)而非一个特定的词汇类别来训练。好处在于第一不用手动标注,数据量很大。第二就是你学到的特征不再是单一的视觉特征,而是多模态特征,这就更容易做zero shot的迁移。

基于对比的目标函数比基于预测的目标函数快了四倍,如果让模型读图生成caption就太难了,因为需要逐字逐句的预测。而且一个图片不同的人描述都可能有许许多多不同的方向,答案太多。

效果非常炸裂,在完全没有参与训练的数据上的分类准确率已经持平甚至超越了该数据集上本身的有监督学习。

 

这篇首先是没想到应用场景,其次这种模型体量、数据体量训练起来贵的恐怖,与绝大多数人没什么关系。

posted @ 2023-04-21 15:19  诸葛村夫CC  阅读(240)  评论(0编辑  收藏  举报