复制-粘贴大法(Copy-Paste):简单而有效的数据增强

论文标题:Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation
论文地址:https://arxiv.org/pdf/2012.07177.pdf

1、摘要

建立有效的实例分割模型,并能处理罕见的对象类别是计算机视觉中一个重要的挑战。数据增强是应对这一挑战的一个有前途的方向。在这里,我们在实例分割方向对复制-粘贴增强进行了系统的研究,如随机地将对象粘贴到一张图像上。先前对复制粘贴的研究依赖于对周围视觉环境的建模来。然而,我们发现随机粘贴对象的简单机制已经足够好了,并且可以在强baseline之上提供稳定的增益。此外,我们通过半监督方法证明复制-粘贴带来的性能是可叠加的,该方法通过伪标签利用额外的数据(如自训练)。在COCO实例分割上,我们实现了49.1 mask AP和57.3 box AP,相比之前的SOTA模型,有+0.6 mask AP和+1.5 box AP的改进。我们进一步证明了复制-粘贴可以显著改善LVIS benchmark。我们的baseline模型在罕见类别上比LVIS 2020挑战赛优胜条目高出+3.6 mask AP。

2、简介

通过粘贴不同规模的不同对象到新的背景图像,复制-粘贴有潜力免费获取丰富的和新颖的训练数据。这一点和其他数据增强类似,但是本文的复制粘贴主要用于实例分割,其粘贴的对象是从一张图中抠出mask部分对应的实例,然后随机粘贴到另一张图像。所复制粘贴的对象,是精确到像素级的,这也是其与Cut-mix方法的区别。

在coco基准集上测试了复制粘贴大法的有效性,如下图所示,通过对比标准尺度抖动、大尺度抖动、大尺度抖动+复制粘贴,可以看出增加了复制粘贴大法后,可以明显进一步提高性能。

image-20221021105044386

3、本文的方法

方法很简单,主要思想是:混合粘贴+大尺度抖动。

混合粘贴
是指利用公式将两幅图像的内容混合在一起;公式中,是粘贴对象所在的图像,是主图像,是mask掩模;公式的意思其实很淳朴,就是将中mask部分的像素抠出来,然后粘贴到中,当然,这个过程有很大的随机性:(1)选择用于粘贴的源图和目标图的随机性;(2)选择粘贴源图中哪些对象的随机性;(3)选择粘贴到目标图像的哪些位置的随机性。

混合粘贴的效果如下图:

image-20221021105158101

大尺度抖动

大尺度抖动(Large Scale Jittering,LSJ)是相较于标准尺度抖动(standard scale jittering,SSJ)而言更为大胆的一种尺度抖动方法。在SSJ中,尺度变化的范围是0.81.25,而在LSJ中,尺度变化范围是0.12.0;如此大范围的抖动,会产生对比强烈的抖动效果。此外,无论LSJ还是SSJ,都使用了随机水平翻转。LSJ的最终效果如下图:

image-20221021105257038

此外,结合自训练,此方法同样能够带来可叠加的收益 。

4、实验结果

4.1 模型初始化、抖动尺度方面

左:使用了预训练/非预训练模型初始化的backbone在使用/不使用复制粘贴情况的下的对比;右:不同抖动尺度下,用和不用复制粘贴的对比。可以看出,无论什么情况,使用了复制粘贴都能带来稳定的收益。

image-20221021105550128

4.2 和mixup的对比

可以看出,在SSJ的实验(左)中,mixup和Copy-Past都能带来收益,但Copy-Past带来的收益更大;但在LSJ的实验(右)中,mixpu带来的收益就几乎没有了,猜测原因应该是LSJ已经足够优秀了,常规的增强方法并不能带来超出LSJ的收益,而Copy-Past就可以。

image-20221021105709311

4.3 在不同backbone和输入尺寸上的对比

从下表可以看出,使用了复制粘贴大法,在所有模型、输入尺度上都能带来稳定收益。

image-20221021105834501

4.4 结合自训练和复制粘贴

自训练利用未标记数据,可带来1.5 Box AP,复制粘贴同样也能带来类似的收益;将两者结合起来用,可以带来“1+1=2”的线性叠加的收益!(能够使收益线性叠加,是真的强!)

image-20221021110100248

将coco中的对象粘贴到coco和粘贴到伪标签数据的对比,可以看出,无论粘贴到哪里都能带来收益,但两者都粘贴则能带来“1+1>2”的收益:

image-20221021110221389

4.5 在coco的SOTA模型上的实验

相比SOTA模型,添加了复制粘贴和自训练的方法后,带来的收益同样可观:

image-20221021110304871

4.6 在 PASCAL VOC目标检测和语义分割上的实验

实验表明,复制粘贴大法对目标检测和实例分割同样有效:

image-20221021110409771 image-20221021110536533

4.7 LVIS数据集上的实验

image-20221021110604665

5 总结

数据增强是许多视觉系统的核心。本文对复制-粘贴数据增强方法进行了严格的研究,发现该方法是非常有效和健壮的。在强大的baseline基础上,无论是在COCO和LVIS实例分割基准集,复制-粘贴在多个实验设置中都能表现良好,并提供了显著的改善。

复制-粘贴增强策略简单,易于插入到任何实例分割代码库中,并且不会增加训练成本或推理时间。我们还展示了复制-粘贴对于在训练过程中合并额外的未标记图像是有用的,并且能够与自训练技术的带来的收益相加。我们希望它足够令人信服,以使复制-粘贴增强可以作为训练实例分割模型时的标准数据增强手段。

posted @ 2022-10-21 11:09  Weltㅤ  阅读(1389)  评论(0编辑  收藏  举报