对比学习论文综述

学习来源：对比学习论文综述【论文精读】_哔哩哔哩_bilibili

百花齐放

CV双雄

MoCo

改进简单有效并且有很大影响
1. 动量编码器。在后续的SimCLR和BYOL等一直在使用
写作方式 - 自顶向下
1. 讲述了cv和nlp的区别，以及为什么cv的对比学习做的不好
2. cv、nlp、对比学习框架统一的情况下，提出方法

SimCLR

概念简单，容易理解。但是batchsize太大（4096/8192）

image.png|400
正样本：2 负样本：2(N-1)

增加mlp+relu可以在ImageNet上提升将近10个点。本篇论文在fc做非线性变换之后的特征是128维。

normalized temperature-scaled 交叉熵函数

projection head函数 \(g()\) 只有在训练的时候使用，下游任务只使用特征 h

相比较[[InvaSpread]]，贡献：

对比学习需要很强的数据增强技术
在编码器之后增加mlp层，可学习的非线性变换
使用lars优化器去做更大的batchsize并且训练时间更久。

数据增强策略：

image.png|500
最有效的是Crop和Color

非线性层(mlp+relu)：
image.png|500

维度大小没有影响，现在多数工作选择128维
至今没有理论能够证明有效性

MoCo v2

将SimCLR上的技术用到MoCo上面。

改动：

使用MLP层
增加数据增强
训练时候使用 cosine 的 learning rate schedule
训练更长的epoch (200 -> 800)

与SimCLR的比较：
image.png|500

image.png|500

SimCLR v2

小部分讲解模型改进从 v1 -> v2, 大部分篇幅讲如何做半监督学习

模型改进：

更大的模型，无监督的对比学习效果会更好。152-layer ResNet，selective kernels(SK Net)
加深protection head。fc-relu ---> fc-relu-fc-relu. 两层的FC效果更好
使用 MoCo 提出的动量编码器。但是提升不多大概～1%。原因可能是原本的mini-batch已经很大，负样本足够多

SimCLR v1 和 SimCLR v2 只做了分类任务。MoCo 做了很多下游任务

SwAV

用一个视角的特征预测其他视角的特征，这些特征应该是相似的。对比学习 + 聚类

去跟聚类中心对比。ImageNet上大概有3000个聚类中心。

image.png|700

特征：(B, D) prototypes：(D, K)

使用聚类：

3000个聚类中心足够代表所有的负样本。即使MoCo的队列60000张图片也只是近似，不是和所有的负样本做对比。
聚类中心含有明确语意信息。之前随机抽取样本可能还含有正样本。
了解聚类方法可参考一作的 deep cluster, deep cluster two

性能提升关键点：

聚类
multi-crop：关注全局信息和局部信息

其他

cmc2: 适量互信息。infoMin，选择合适的数据增强等

不用负样本

BYOL

负样本是一个约束。正样本是让同一类的物体特征尽可能相似。如果没有负样本则模型会学到一个shortcut：所有特征都一致

SimSam

不需要负样本
不需要大batchsize
不需要动量编码器

image.png|500
stop-gradient操作。

Expectation-Maximization(EM) 操作

Transformer

MoCo v3

posted @ 2023-03-21 15:23 星星亮了欸阅读(89) 评论(0) 编辑收藏举报

刷新页面返回顶部

Star