[Multimodal] Since ViLT

CLIP (Feb 2021) 之前的多模态

[Submitted on 6 Aug 2019]

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

[Submitted on 25 Sep 2019 (v1), last revised 17 Jul 2020 (this version, v3)]

UNITER: UNiversal Image-TExt Representation Learning

[Submitted on 2 Apr 2020 (v1), last revised 22 Jun 2020 (this version, v2)]

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Downstream Tasks

下游任务包括：

- 视觉问答（VQA）、
- 视觉常识问答（VCR）、
- 引用表达式理解（Referring Expressions）以及
- 基于标题的图片检索（Caption-Based Imahe Retrieval）。

Since CLIP (Feb 2021)

[Submitted on 13 Jul 2021]

How Much Can CLIP Benefit Vision-and-Language Tasks?

CLIP对视觉和语言任务有多大的好处？UC Berkeley&UCLA团队给出了答案！

主要是pre-trained的基础上，提供了更好的性能提升。

具体参见：[GenerativeAI] Contrasive Learning and CLIP

However, 模态融合只做了简单的融合，所以只能做简单地处理 search retrieve 这类任务。

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

为何这么做？

过去专注与“复杂的模型抽取视觉特征”。

现在思路类似DETR，不再需要“检测”作为过度。在ViT发表后，受到启发，证明了ViT 的 Linear embedding就足以。

[Submitted on 22 Oct 2020 (v1), last revised 3 Jun 2021 (this version, v2)]

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

ViLT 论文精读【论文精读】

ViLT: 没有卷积和区域监督的视觉-语言Transformer模型【论文翻译】

[Submitted on 5 Feb 2021 (v1), last revised 10 Jun 2021 (this version, v2)]

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

四种模态融合的策略

可见，使用 ViT Patch Embedding 后，确实效率提升了很多。Patch Embedding 就是把每个Patch再经过一个全连接网络压缩成一定维度的向量。

多模态在 2021开始爆发

多模态论文串讲·上【论文精读】

00:00 ViLT CLIP回顾

09:57 ALBEF

51:11 VLMO

多模态论文串讲·下【论文精读】

00:00 BLIP

32:53 CoCa

42:05 BeiTv3

55:48 总结

ALBEF

[Submitted on 16 Jul 2021 (v1), last revised 7 Oct 2021 (this version, v2)]

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

特点：nlp部分的大模型分成了两半儿，后半部分用了 cross attention。

输入还是文本图片对儿。

VLMO

[Submitted on 3 Nov 2021 (v1), last revised 27 May 2022 (this version, v2)]

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

特点：分阶段训练。

BLIP

[Submitted on 28 Jan 2022 (v1), last revised 15 Feb 2022 (this version, v2)]

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

借鉴了ALBEF与VLMO，Bootstrapping的体现如下：

以下涉及到了“数据清理策略”？

CapFilt 是另一个亮点，用于清理数据。

CoCa

[Submitted on 4 May 2022 (v1), last revised 14 Jun 2022 (this version, v2)]

CoCa: Contrastive Captioners are Image-Text Foundation Models

2.1B的数据集。

MEiT 系列

Ref: [GenerativeAI] MAE and SAM

MAE提供一个更好的pre-trained model的方法。然后，引出了MEiT系列。

[Submitted on 15 Jun 2021 (v1), last revised 3 Sep 2022 (this version, v2)]

BEiT: BERT Pre-Training of Image Transformers, Microsoft Corporation.

[Submitted on 12 Aug 2022 (v1), last revised 3 Oct 2022 (this version, v2)]

BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers, Salesforce Research.

[Submitted on 22 Aug 2022 (v1), last revised 31 Aug 2022 (this version, v2)]

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks, Salesforce Research, Microsoft Corporation.

FLIP

[Submitted on 1 Dec 2022 (v1), last revised 30 Mar 2023 (this version, v2)]

Scaling Language-Image Pre-training via Masking

如上，图片采用了mask，竟然训练速度加倍，但模型效果一致，所以称之为fast。

发展历程

一篇综述文章

[Submitted on 12 Jan 2023]

Multimodal Deep Learning

其实就是一本书，239页，涵盖了研讨会的成果。

[Submitted on 23 Jun 2023]

A Survey on Multimodal Large Language Models

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models，近期论文列表

多模态与大语言模型结合越来越紧密，这就是“专家级别”，此次不细表~

posted @ 2021-10-05 18:21 郝壹贰叁阅读(376) 评论(0) 编辑收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[Multimodal] Since ViLT

CLIP (Feb 2021) 之前的多模态

Downstream Tasks

Since CLIP (Feb 2021)

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

多模态在 2021开始爆发

ALBEF

VLMO

BLIP

CoCa

MEiT 系列

FLIP

发展历程

公告

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston

[Multimodal] Since ViLT

CLIP (Feb 2021) 之前的多模态

Downstream Tasks

Since CLIP (Feb 2021)

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

多模态 在 2021开始爆发

ALBEF

VLMO

BLIP

CoCa

MEiT 系列

FLIP

发展历程

公告

多模态在 2021开始爆发