CVPR 2023 | 基础模型推动语义分割的弱增量学习

前言语义分割的弱增量学习（WILSS）目的是学习从廉价和广泛可用的图像级标签中分割出新的类别，但图像级别的标签不能提供定位每个片段的细节。为了解决该问题，本文提出了一个新颖且数据高效的框架（FMWISS）。该框架提出了基于预训练的共同分割，以提炼出互补基础模型的知识来生成密集的伪标签。用师生结构进一步优化噪声伪标签，并引入基于内存的复制-粘贴增强技术，以改善旧类的灾难性遗忘问题。
FMWISS在Pascal VOC和COCO数据集上的广泛实验证明了其优越性能，例如，在15-5 VOC设置中实现了70.7%和73.3%，分别比最先进的方法高出3.4%和6.1%。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

论文：https://arxiv.org/pdf/2302.14250.pdf

论文出发点

已有的语义分割方法在一个数据集上预训练的模型，在另一个有新类别的数据集上重新训练时，很容易忘记学到的知识。这种现象被称为 "灾难性遗忘"。解决这种灾难性遗忘问题的一个很有前途的方法被称为增量学习。

最近，有一些方法被提出来解决语义分割的增量学习（ILSS）任务，进一步发展这些方法的一个关键障碍是对新类别的像素级注释的要求。以此为基础，从图像级别的标签中逐步更新模型，以获得新的类别。但图像级别的标签不能提供准确定位每个片段的细节，这限制了WILSS的性能和发展。

这篇论文提出一个基础模型驱动弱增量学习的语义分割框架，被称为FMWISS，旨在改进并更有效地利用给定的图像级标签对新类别的监督，同时保留旧类别的知识。

创新思路

本文尝试利用互补的基础模型来改善和更有效地使用仅给定图像级别标签的监督，提出了基于预训练的共同分割，通过从预训练的基础模型中提炼出类别意识和类别无关的知识来生成密集的掩码，这针对原始图像标签提供了密集的监督。

同时为了有效地利用伪标签，使用了一个师生架构，并提出了密集对比损失，以动态地优化嘈杂的伪标签。进一步引入了基于内存的复制-粘贴增强技术，以弥补旧类的遗忘问题，也可以提高性能。

方法

预训练的协同分割方法

为了获得新类别图像的密集预测，作者应用预训练的 CLIP 模型来提取给定图像级标签的类别感知像素注释：

由 CLIP 生成的伪掩码可以提供丰富的类别感知像素注释，但由于基于图像文本对的 CLIP 训练范式注定擅长实例级分类而不是分割，因此掩码有噪声。为了提高掩码质量，本文提炼另一种基础模型的知识，即自监督预训练模型。这些模型可以生成紧凑的类别不可知注意力图。但是，如何在给定可能包含多个对象的图像的情况下为目标类提取分割是个难点。为了解决这个问题，作者通过特定类别的种子指导来改进初始掩码：