[Multimodal] Since ViLT

CLIP (Feb 2021) 之前的多模态

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

UNITER: UNiversal Image-TExt Representation Learning

 

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

 

Downstream Tasks

下游任务包括:

    • 视觉问答(VQA)、
    • 视觉常识问答(VCR)、
    • 引用表达式理解(Referring Expressions)以及
    • 基于标题的图片检索(Caption-Based Imahe Retrieval)。

 

 

Since CLIP (Feb 2021)

How Much Can CLIP Benefit Vision-and-Language Tasks?

CLIP对视觉和语言任务有多大的好处?UC Berkeley&UCLA团队给出了答案!

主要是pre-trained的基础上,提供了更好的性能提升。

具体参见:[GenerativeAI] Contrasive Learning and CLIP

 

 However, 模态融合只做了简单的融合,所以只能做简单地 处理 search retrieve 这类任务。

 

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

  • 为何这么做?

过去专注与“复杂的模型抽取视觉特征”。

现在思路类似DETR,不再需要“检测”作为过度。在ViT发表后,受到启发,证明了ViT 的 Linear embedding就足以。

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

 

ViLT 论文精读【论文精读】

ViLT: 没有卷积和区域监督的视觉-语言Transformer模型 【论文翻译】

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

 

  • 四种模态融合的策略

 

可见,使用 ViT Patch Embedding 后,确实效率提升了很多。Patch Embedding 就是把每个Patch再经过一个全连接网络压缩成一定维度的向量。

 

 

多模态 在 2021开始爆发

00:00 BLIP

32:53 CoCa

42:05 BeiTv3

55:48 总结

 

ALBEF

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

特点:nlp部分的大模型分成了两半儿,后半部分用了 cross attention。

输入还是文本图片对儿。

 

VLMO

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

特点:分阶段训练。

 

BLIP

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

借鉴了ALBEF与VLMO,Bootstrapping的体现如下:

 

以下涉及到了“数据清理策略”?

CapFilt 是另一个亮点,用于清理数据。

 

CoCa

CoCa: Contrastive Captioners are Image-Text Foundation Models

2.1B的数据集。

  

 

MEiT 系列

Ref: [GenerativeAI] MAE and SAM

MAE提供一个更好的pre-trained model的方法。然后,引出了MEiT系列。

 

BEiT: BERT Pre-Training of Image Transformers, Microsoft Corporation.

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers, Salesforce Research.

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks, Salesforce Research, Microsoft Corporation.

 

FLIP

Scaling Language-Image Pre-training via Masking

如上,图片采用了mask,竟然训练速度加倍,但模型效果一致,所以称之为fast。

 

 

发展历程

一篇综述文章

Multimodal Deep Learning

其实就是一本书,239页,涵盖了研讨会的成果。

 

A Survey on Multimodal Large Language Models

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models,近期论文列表

多模态与大语言模型结合越来越紧密,这就是“专家级别”,此次不细表~

 

posted @ 2021-10-05 18:21  郝壹贰叁  阅读(374)  评论(0编辑  收藏  举报