[Multimodal] Since ViLT
CLIP (Feb 2021) 之前的多模态
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
UNITER: UNiversal Image-TExt Representation Learning
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers
Downstream Tasks
下游任务包括:
-
- 视觉问答(VQA)、
- 视觉常识问答(VCR)、
- 引用表达式理解(Referring Expressions)以及
- 基于标题的图片检索(Caption-Based Imahe Retrieval)。
Since CLIP (Feb 2021)
How Much Can CLIP Benefit Vision-and-Language Tasks?
CLIP对视觉和语言任务有多大的好处?UC Berkeley&UCLA团队给出了答案!
主要是pre-trained的基础上,提供了更好的性能提升。
具体参见:[GenerativeAI] Contrasive Learning and CLIP
However, 模态融合只做了简单的融合,所以只能做简单地 处理 search retrieve 这类任务。
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
- 为何这么做?
过去专注与“复杂的模型抽取视觉特征”。
现在思路类似DETR,不再需要“检测”作为过度。在ViT发表后,受到启发,证明了ViT 的 Linear embedding就足以。
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
ViLT: 没有卷积和区域监督的视觉-语言Transformer模型 【论文翻译】
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
- 四种模态融合的策略
可见,使用 ViT Patch Embedding 后,确实效率提升了很多。Patch Embedding 就是把每个Patch再经过一个全连接网络压缩成一定维度的向量。
多模态 在 2021开始爆发
00:00 BLIP
32:53 CoCa
42:05 BeiTv3
55:48 总结
ALBEF
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
特点:nlp部分的大模型分成了两半儿,后半部分用了 cross attention。
输入还是文本图片对儿。
VLMO
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
特点:分阶段训练。
BLIP
借鉴了ALBEF与VLMO,Bootstrapping的体现如下:
以下涉及到了“数据清理策略”?
CapFilt 是另一个亮点,用于清理数据。
CoCa
CoCa: Contrastive Captioners are Image-Text Foundation Models
2.1B的数据集。
MEiT 系列
Ref: [GenerativeAI] MAE and SAM
MAE提供一个更好的pre-trained model的方法。然后,引出了MEiT系列。
BEiT: BERT Pre-Training of Image Transformers, Microsoft Corporation.
BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers, Salesforce Research.
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks, Salesforce Research, Microsoft Corporation.
FLIP
Scaling Language-Image Pre-training via Masking
如上,图片采用了mask,竟然训练速度加倍,但模型效果一致,所以称之为fast。
发展历程
一篇综述文章
其实就是一本书,239页,涵盖了研讨会的成果。
A Survey on Multimodal Large Language Models
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models,近期论文列表
多模态与大语言模型结合越来越紧密,这就是“专家级别”,此次不细表~