论文推荐:ReLICv2 ,新的自监督学习能否在ResNet 上超越监督学习?

自监督 ResNets 能否在 ImageNet 上没有标签的情况下超越监督学习?

在本文中将介绍最近一篇推动自监督学习状态向前发展的论文,该论文由 DeepMind 发表,绰号为 ReLICv2。

Tomasev 等人的论文“Pushing the limits of self-supervised ResNets: Can we outperform supervised learning without labels on ImageNet?”。提出了对 ReLIC 论文的技术的改进,该论文名为“Representation learning via invariant causal mechanisms”。他们方法的核心是增加了 Kullback-Leibler-Divergence 损失,这是使用经典对比学习目标的概率公式计算的。除此以外还引入了一种新颖的增强方案,并借鉴了其他相关论文的经验。

本文尽量保持简单,以便即使是没有先验知识的读者也可以跟进。

计算机视觉的自监督和无监督预训练

在深入研究论文之前,有必要快速回顾一下自监督预训练的全部内容。如果你对自监督学习有所了解,或者熟悉自监督预训练,可以跳过这一部分。

一般情况下计算机视觉模型一直使用监督学习进行训练。这意味着人类查看图像并为它们创建各种标签,模型可以学习这些标签的模式。例如,人工注释者会为图像分配类标签或在图像中的对象周围绘制边界框。但任何接触过标签任务的人都知道,创建足够的训练数据集的工作量很大。

相比之下,自监督学习不需要任何人工创建的标签,模型自己监督自己学习。在计算机视觉中,对这种自监督进行建模的最常见方法是对图像进行不同的裁剪或对其应用不同的增强,并将修改后的输入传递给模型。这样可以即使图像包含相同的视觉信息但看起来不一样,也就是说让模型知道这些图像仍然包含相同的视觉信息,即相同的对象,这样可以让模型学习相同对象的相似潜在表示(输出向量)。

然后可以在这个预训练模型上进行迁移学习。这些模型会在 10% 的带有标签的数据上进行训练,以执行目标检测和语义分割等下游任务。

论文的贡献

正如许多其他自监督预训练技术的情况一样,ReLICv2 训练过程的第一步也是关于数据增强。在论文中,作者首先提到了使用以前成功的增强方案。

第一个是 SwAV 中使用的增强。与之前的工作相反,SwAV 不仅创建了两种不同的输入图像裁剪,而且最多可以裁剪 6 次。这些可以制作成不同的尺寸,例如 224x244 和 96x96,最成功的数量是两个大尺寸和 6 个小尺寸。如果想了解更多有关 SwAV 增强方案的信息,请阅读原论文。

先前描述的第二组增强来自 SimCLR。这个方案现在几乎被这个领域的所有论文使用。通过应用随机水平翻转、颜色失真、高斯模糊和过度曝光来处理图像。如果您想了解有关 SimCLR 的更多信息,请阅读原论文。

但是 ReLICv2 还提供了一种新颖的增强技术:从图像中的对象中移除背景。为了实现这一点,他们以无监督的方式在一些 ImageNet 数据上训练一个背景去除模型。作者发现这种增强在以 10% 的概率应用时最有效。

一旦图像被增强并进行了多次裁剪,输出将通过编码器网络和目标网络。当编码器网络使用反向传播进行更新时,目标网络通过类似于 MoCo 框架的动量计算接收更新。

ReLICv2 的总体目标是学习编码器,以便为相同的类生成一致的输出向量。作者制定了一种新颖的损失函数。它们从标准的对比负对数似然开始,其核心具有相似性函数,将锚图像(主要输入图像)与正例(图像的增强版本)和负例(同一图像中的其他图像)进行比较。

完整文章

https://www.overfit.cn/post/10a7118f47604bd090e966e0e20c0173

posted @ 2022-03-01 10:13  deephub  阅读(69)  评论(0编辑  收藏  举报