[GenerativeAI] Contrasive Learning and CLIP

Resources

无监督 --> 自监督 --> 对比学习框架。

自监督学习: 人工智能的未来

自监督学习属于无监督学习，目前有“特定任务”和“表征学习”两个分支。
自监督的“表征学习”有生成式和对比式两种。

对比学习教程笔记

四阶段发展 since 2018

第一阶段：百花齐放

01:48 InstDisc　　# Moco的肩膀；引入个体判别；

07:01 InvaSpread # SimCLR的前身

10:30 CPC # 有点类似mask，把自己的部分作为预测的gt，并对比

12:59 CMC 　　# 一个物体的多个视角都可以作为正样本

第二阶段：CV双雄

18:28 MoCov1 　　# 归为字典查询问题，并吸取了GPT, BERT的经验

23:00 SimCLRv1 　　# 更多的数据增强，最后加一层MLP (提高10个点，估计还是数据增强的结果)，data-centric idea 发迹

31:00 MoCov2 　　# 进一步发现 “数据增强” + MLP 在一起会奇效。

36:14 SimCLRv2 　　# 借鉴了teacher-student思想

40:24 SWaV 　　# 一个视角预测其他视角，与聚类结合，至于聚类的中心比

第三阶段：不用负样本

52:30 BYOL 　　# 用一个正样本，预测其他正样本

58:23 针对BYOL的博客和他们的回应

69:31 SimSiam 　　# 去掉了以上没必须的部分

第四阶段：基于Transformer

77:23 MoCov3

83:10 DINO

年份	名字	简介
2018	InstDisc	提出实例判别和memory bank做对比学习
2018	CPC	对比预测编码，图像语音文本强化学习全都能做
2019	InvaSpread	一个编码器的端到端对比学习
2019	CMC	多视角下的对比学习
2019	MoCov1	无监督训练效果也很好
2020	SimCLRv1	简单的对比学习 (数据增强 + MLP head + 大batch训练久)
2020	MoCov2	MoCov1 + improvements from SimCLRv1
2020	SimCLRv2	大的自监督预训练模型很适合做半监督学习
2020	BYOL	不需要负样本的对比学习
2020	SWaV	聚类对比学习
2020	SimSiam	化繁为简的孪生表征学习
2021	MoCov3	如何更稳定的自监督训练ViT
2021	DINO	transformer加自监督在视觉也很香

个体判别：Instance Discrimination

区分每一个instance?

Ref: 自监督对比学习系列一 [非常好]

InstDist 提出了个体判别这个代理任务。作者是受到有监督学习的启发，比如将一张豹子的图片输入到一个有监督数据训练的分类器中，排名前几的都是和豹子相关的，比如美洲豹、雪豹，而靠后的都是毫不相关的。作者认为这些图片聚集在一起的原因，并不是因为给了它们相似的语义标签，而是这些图片在视觉上非常相似。因此，作者把这种按类别的有监督任务发挥到极致，提出了个体判别任务，把每张图片都看作一个类别，希望模型可以学习到图片的表征，从而把图片都区分开来。

Memory Bank，所有图像特征都存在这里。

正样本，负样本

-- 如何训练对比学习？ --

Goto: 【機器學習2021】自督導式學習 (Self-supervised Learning)

Self-supervised Learning, since 2019 by Lecun.

BERT; Downstream task.

MoCo and SimCLR (更多的数据增强)

Moco思想参见InstDisc。

SimCLR[2]和MoCo[3]是最早结合上述两个思想的方法, 它们通过 同一幅图像分别增广后的图像对之间的特征比对计算, 增强神经网络模型的特征提取能力, 再应用于下游任务中。

发现“数据增强”很重要，但只有两个会非常有效：crop and colour，这就是yolov5 (2020) 的内置特点。

MoCov2 的消融对比实验如下，说明“对比”需要与“MLP”相结合才是最好的伴侣。

Ref: Contrastive Learning with SimCLR V1/V2 and Some Intriguing Properties

自监督学习实际上是无监督的一个变种，根据牛津大学Andrew Zisserman给出的定义，自监督是数据能够提供监督信息的一种无监督学习方式。

SWaV选择与聚类的中心做对比，引入了如下的c（centre）。另外，发现 multi-crop 也很有用，与yolov5有点类似。

SimSiam

不用负样本，为何模型训练没有坍塌？

BN的意义在于：当前图片与平均图片（类似聚类中心）在做隐式对比? No!

SimSiam三个牛逼之处：

1. 不需要负样本。左脚踩右脚就上天啦！
2. 不需要大的batch size。
3. 不需要动量编码器 momentum encoders。

下游任务图表：https://youtu.be/1pvxufGRuW4?t=4555

还没来得及继续发展，已被Transformer淹没。

Mocov3: Self-supervised ResNet and ViT

Code: https://github.com/facebookresearch/moco-v3

DINO（segmentation效果非常好）

Emerging Properties in Self-Supervised Vision Transformers

centering：在一个minibatch里求均值，然后在用样本减去这个均值，作用类似于BYOL中BN的操作。

与mocov3比较像。

总结一下

自监督在引入vit后，dino的发现对之后的segment anything带来了可能。

MAE火爆后，开始掩码学习。

CLIP (Contrastive Language–Image Pre-training) 精读

提出 Prompt Engineering

CLIP是一种基于对比学习的多模态模型，与CV中的一些对比学习方法如moco和simclr不同的是，CLIP的训练数据是文本-图像对：一张图像和它对应的文本描述，这里希望通过对比学习，模型能够学习到文本-图像对的匹配关系。

4亿个对儿作为训练数据。

Prompt engineer: word （label） --> sentence. 　　# 与传统object classification的一个区别

Paper: https://openai.com/research/clip

Learning Transferable Visual Models From Natural Language Supervision （Feb 2021）

推理时，不得不tricky的一个地方是：把一个单词变成一个句子，然后再与需要分类的图片做相似度对比。从而引出了“prompt template”的概念。

题外话：大模型时代，如何训练呢?

How to Train Really Large Models on Many GPUs?（视频中提及的推荐博客，就职于OpenAI）

September 24, 2021 · 21 min · Lilian Weng

实战学习

同时期，OpenAI 发布了两大 multimodal 的成果。

Ref: [GenerativeAI] GAN to Diffusion　　# 在该链接中再探讨sd。

OpenAI 的 multimodal 神經網路（上）DALL·E: 從文本創造圖片

Dall-E 1 was announced in January 2021, while Dall-E 2 came out in April 2022. With the original Dall-E, OpenAI used a dVAE to generate images. Dall-E 2 uses a diffusion model that can generate higher quality images.

这里重点关注下以下部分。

OpenAI 的 multimodal 神經網路 (下) CLIP: Connecting Text and Images

讓AI幫你穿搭！用CLIP實作一個時尚穿搭資料庫

关键卖点

1. CLIP 很高效
這邊 OpenAI 做了兩個關鍵選擇，首先，他們本來考慮使用跟 VirTex 一樣的 image encoder + text decoder 的架構，但是當 scale 大的時候，就無法達到好的 performance。

後來採用了 contrasive objective 的方法，兩個都是 encoder。結果快 4 到 10 倍。第二個選擇是採用了 Visual Transformer，比 ResNet 快 3 倍。

2. CLIP 很有彈性也很通用
因為直接從自然語言學到超廣域的影像概念，CLIP 的泛用性遠遠超過一般用 ImageNet 訓練出來的 model。OpenAI 把 CLIP 放到 30 個不同領域的 dataset 去做 zero-shot classification 都有不錯的表現，特別值得一提的是 OCR，因為 ImageNet model 通常不適用 OCR（因為是完全不同的 domain）。

反应了文字与图片的对应能力是可行的！也是认知的内在秘密~

限制

CLIP 雖然強大，還是有弱點的。

對於一些抽象任務或是系統性任務它就失敗了，比方說計算圖片裡面有幾個物體，或是問它圖片裡面最接近的兩台車有多近，它的答案基本上只比亂猜好一點。還有一些針對特定領域的 fine-grained classification 問題的表現也不好，比方說問它這台車的車型，它就做不好。

還有，如果是 pre-training 的 dataset 裡面缺乏的領域，那就真的做得不大好，比方說他雖然能做 OCR，但是 pretrain dataset 沒有 MNIST，給他 MNIST 的手寫文字辨識，他只能做到 88%，一般特定 model 就可以做到 99.75%。

看来，一旦有了不错的 CLIP模型，对于图文检索，就好办了。尤其是“一段文字输入检索相关的站内图片”

关键代码

Ref: Natural language image search with a Dual Encoder

Ref: CLIP - Keras Code Examples【上述代码讲解】

Image Embeding

这里使用了Xception，但VIT可能会更好一些。

def create_vision_encoder(
    num_projection_layers, projection_dims, dropout_rate, trainable=False
):
    # Load the pre-trained Xception model to be used as the base encoder.
    xception = keras.applications.Xception(
        include_top=False, weights="imagenet", pooling="avg"
    )
    # Set the trainability of the base encoder.
    for layer in xception.layers:
        layer.trainable = trainable
    # Receive the images as inputs.
    inputs = layers.Input(shape=(299, 299, 3), name="image_input")
    # Preprocess the input image.
    xception_input = tf.keras.applications.xception.preprocess_input(inputs)
    # Generate the embeddings for the images using the xception model.
    embeddings = xception(xception_input)
    # Project the embeddings produced by the model.
    outputs = project_embeddings(
        embeddings, num_projection_layers, projection_dims, dropout_rate
    )
    # Create the vision encoder model.
    return keras.Model(inputs, outputs, name="vision_encoder")

View Code

- Text Embedding

利用bert与训练模型生成词向量。

def create_text_encoder(
    num_projection_layers, projection_dims, dropout_rate, trainable=False
):
    # Load the BERT preprocessing module.
    preprocess = hub.KerasLayer(
        "https://tfhub.dev/tensorflow/bert_en_uncased_preprocess/2",
        name="text_preprocessing",
    )
    # Load the pre-trained BERT model to be used as the base encoder.
    bert = hub.KerasLayer(
        "https://tfhub.dev/tensorflow/small_bert/bert_en_uncased_L-4_H-512_A-8/1",
        "bert",
    )
    # Set the trainability of the base encoder.
    bert.trainable = trainable
    # Receive the text as inputs.
    inputs = layers.Input(shape=(), dtype=tf.string, name="text_input")
    # Preprocess the text.
    bert_inputs = preprocess(inputs)
    # Generate embeddings for the preprocessed text using the BERT model.
    embeddings = bert(bert_inputs)["pooled_output"]
    # Project the embeddings produced by the model.
    outputs = project_embeddings(
        embeddings, num_projection_layers, projection_dims, dropout_rate
    )
    # Create the text encoder model.
    return keras.Model(inputs, outputs, name="text_encoder")

View Code

CLIP 改进工作（后续发展）

Zero-shot 就是希望我们的模型能够对其从没见过的类别进行分类，让机器具有推理能力，实现真正的智能。

多模态的东西是如何提高Segmentation的？

03:28 Lseg
18:27 GroupViT
37:43 ViLD
58:22 GLIP (June 2022)
00:00 CLIPasso
24:11 CLIP4Clip
37:40 ActionCLIP
54:23 CLIP-ViL
55:55 AudioCLIP
57:27 PointCLIP
59:06 DepthCLIP

Lseg

多模态的文本标签发挥了作用；依然是“有监督”学习。

April 2022 打入 segmentation领域。

[Submitted on 10 Jan 2022 (v1), last revised 3 Apr 2022 (this version, v2)]

Language-driven Semantic Segmentation

Zero-shot 的分割。依赖手工标注的 Mask。

GroupViT（CLIP在分割领域的应用）

[Submitted on 22 Feb 2022 (v1), last revised 18 Jul 2022 (this version, v5)]

GroupViT: Semantic Segmentation Emerges from Text Supervision

什么是GroupViT?

简而言之，通过一个tricky的 gumbel softmax 做聚类中心的分配，以便“可导”。

只使用了图像文本对儿。

该模型的缺陷是：语义理解不太好，导致分类出错率高。而实则视觉分割其实做的不错。

ViLD（CLIP在检测领域的应用）

[Submitted on 28 Apr 2021 (v1), last revised 12 May 2022 (this version, v3)]

Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

在CLIP出现的两个月后，就写出论文。

GLIP

[Submitted on 7 Dec 2021 (v1), last revised 17 Jun 2022 (this version, v2)]

Grounded Language-Image Pre-training

GLIP将 object detection 和 phrase grounding 结合起来进行预训练。

这有两个好处：

1. GLIP可以同时从 detection 和 grounding 数据中训练学习，以改进两种任务，训练一个优秀的 grounding 模型；
2. GLIP可以通过 self-training 的方式生成 grounding boxes(即伪标签)来利用大量的图像文本对数据，使学习到的视觉表征具有丰富的语义。

实验上，作者对27M grounding data 进行预训练(包括3M人工注释和24M网络爬取的图像文本对)。训练学习到的视觉表征在各种目标级别的识别任务中都具有较强的zero/few shot迁移能力。

重点来了，（下），轮廓到图像。

CLIPasso: https://clipasso.github.io/clipasso/ [最佳论文]

ActionCLIP: https://youtu.be/ugJeBivv65s?t=2347

posted @ 2021-05-05 22:15 郝壹贰叁阅读(140) 评论(0) 编辑收藏举报

刷新页面返回顶部

机器学习水很深

We all have two lives. The second one starts when we realize that we only have one. --- Tom Hiddleston