CVPR 2023 | 基于Token对比的弱监督语义分割新方案！

前言 ViT可以缓解弱监督语义分割 (WSSS) 中，CAM生成伪标签无法识别完整对象区域的问题，但是它也造成过度平滑的问题。为了解决这个问题，本文提出ToCo方法，首先，由于观察到 ViT 中的中间层仍然可以保留语义多样性，设计了一个 Patch Token Contrast 模块 (PTC)。 PTC 使用从中间层派生的伪标记关系来监督最终的补丁标记，允许它们对齐语义区域，从而产生更准确的 CAM。其次，为了进一步区分 CAM 中的低置信度区域，设计了一个类标记对比模块 (CTC)，CTC 通过对比它们的类标记来促进不确定局部区域和全局对象之间的表示一致性。
在 PASCAL VOC 和 MS COCO 数据集上的实验表明，所提出的 ToCo 可以显着超越其他单级竞争对手，并与最先进的多级方法实现可比的性能。

本文转载自自动驾驶之心

作者 | 王汝嘉

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

论文：https://arxiv.org/pdf/2303.01267.pdf代码：https://github.com/rulixiang/ToCo

论文思路：

使用图像级（image-level）标签的弱监督语义分割(WSSS)通常利用类激活映射(Class Activation Map, CAM)生成伪标签。受CNN局部结构感知的限制，CAM通常无法识别完整的目标区域。虽然最近的VisionTransformer(ViT)可以弥补这个缺陷，但是本文观察到它也带来了过度平滑（over-smoothing）的问题，即最终的patch token趋向于一致。在这项工作中，本文提出Token Contrast(ToCo)来解决这个问题，并进一步探索ViT对于WSSS的优点。首先，基于ViT的中间层仍然可以保持语义多样性的观察，本文设计了一个Patch Token Contrast module(PTC)。PTC使用中间层派生的pseudo token关系来监督最后的patch tokens，允许它们对齐语义区域，从而产生更准确的CAM。其次，为了进一步区分CAM中的低置信度区域，本文设计了一个Class Token Contrast module(CTC)，其灵感来自于ViT中的class tokens可以捕获高级语义。CTC通过对比不确定的局部区域和全局物体的class tokens，促进了它们之间的表示一致性。在PASCAL VOC和MS COCO数据集上的实验表明，提出的ToCo可以显著地超越其他single-stage竞争对手，并达到与当前最先进的multi-stage算法相当的性能.

主要贡献：

本文提出Patch Token Contrast(PTC)来解决ViT中的过度平滑问题。PTC通过使用中间知识监督最终的tokens，可以对抗patch的均匀性，显著提高WSSS伪标签的质量。

本文提出了Class Token Contrast(CTC)，它可以对全局前景和局部不确定区域(背景)的表示进行对比，并促进了CAM中目标激活的完整性。

在PASCAL VOC[14]和MS COCO数据集[26]上的实验表明，提出的ToCo方法可以显著优于SOTA single-stage WSSS方法，并且可以达到与multi-stage竞争对手相当的性能。

网络设计：

图3。ToCo的总体框架。ToCo首先使用一个额外的分类层(cls. layer)来生产辅助CAM(aux. CAM)。在PTC模块中，利用aux. CAM来推导tokens关系，并监督最终patch tokens的成对tokens相似度，以解决过度平滑问题。在CTC模块中，将负/正图像的class tokens进行投影，并与global class token进行对比，进一步区分CAM中的低置信度区域。伪标签是用最终的CAM生成的。

如图3所示，ToCo在ViT编码器中使用一个辅助分类层来生成辅助CAM。随后利用辅助CAM生成辅助伪标签并引导PTC模块。同时，它也被用来为CTC模块生成裁剪正面和负面局部图像的提议。利用分类层获得最终CAM，并且使用该最终CAM来生成最终伪标签。