TODO
0.多模态模型Florence: A New Foundation Model for Computer Vison;
对比loss+MLM掩码语言模型 ALBEF:Align before fuse: Vision and language representation learning with momentum distillation
1、swin能检测小物体的原因?
2、focal transformer论文阅读
3、https://www.cnblogs.com/jins-note/default.html?page=1
4、https://zhuanlan.zhihu.com/p/534454822
5、https://www.zhihu.com/question/539176113/answer/2568276340
6、
7、https://www.zhihu.com/question/531445629
ALBEF路线:NCE+ITM+MLM+momentum
autoregressive的技术路线:
为什么是 Autoregressive:正如作者在知乎上的回复,如果是MLM的话,文本这边就得是加了mask的(corrupted)输入,对应的特征不能用作图文对齐。在用MLM的情况下,如果要加InfoNCE,文本这边就得输入两遍,一个是原本的文本用于InfoNCE,一遍是加了masked用于MLM。而选用autoregressive就不一样了,只forward一遍就够了
Autoregressive 就够了:这个组的前作SimVLM就已经证明,仅仅使用autoregressive loss就足够达到优秀的 multimodal understanding performance(VQA,Image Captioning,etc.)。CoCa证明,autoregressive loss加InfoNCE可以融合单流和双流模型的优点。另一边,ALBEF是向单流模型中加了InfoNCE(正如其名:align before fuse),但是还有 Image Text Matching(ITM),Masked Language Modelling (MLM)和 momentum teacher。这组设计(NCE+ITM+MLM+momentum)被后来的很多工作follow。CoCa出来之后,感觉SimVLM这条autoregressive的技术路线更具有说服力(也更简洁优雅!),可能更多的工作会转向follow CoCa 而不是 ALBEF 了
autoregressive loss:
InfoNCE:
8、链接:https://pan.baidu.com/s/1gQ0KfTi3fRv5IQKGkVDr8Q
提取码:01i8
9、DETR,Deformalabel可以容许输入图片的尺寸不一致
10、无监督框架
https://www.zhihu.com/question/512671899/answer/2323755178
11、自监督学习
https://www.zhihu.com/question/506657286/answer/2275700206