CVPR 2023 | 基于Token对比的弱监督语义分割新方案!

前言 ViT可以缓解弱监督语义分割 (WSSS) 中,CAM生成伪标签无法识别完整对象区域的问题,但是它也造成过度平滑的问题。为了解决这个问题,本文提出ToCo方法,首先,由于观察到 ViT 中的中间层仍然可以保留语义多样性,设计了一个 Patch Token Contrast 模块 (PTC)。 PTC 使用从中间层派生的伪标记关系来监督最终的补丁标记,允许它们对齐语义区域,从而产生更准确的 CAM。其次,为了进一步区分 CAM 中的低置信度区域,设计了一个类标记对比模块 (CTC),CTC 通过对比它们的类标记来促进不确定局部区域和全局对象之间的表示一致性。
在 PASCAL VOC 和 MS COCO 数据集上的实验表明,所提出的 ToCo 可以显着超越其他单级竞争对手,并与最先进的多级方法实现可比的性能。

本文转载自自动驾驶之心

作者 | 王汝嘉

仅用于学术分享,若侵权请联系删除

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

计算机视觉入门1v3辅导班

论文:代码:

论文思路:

使用图像级(image-level)标签的弱监督语义分割(WSSS)通常利用类激活映射(Class Activation Map, CAM)生成伪标签。受CNN局部结构感知的限制,CAM通常无法识别完整的目标区域。虽然最近的VisionTransformer(ViT)可以弥补这个缺陷,但是本文观察到它也带来了过度平滑(over-smoothing)的问题,即最终的patch token趋向于一致。在这项工作中,本文提出Token Contrast(ToCo)来解决这个问题,并进一步探索ViT对于WSSS的优点。首先,基于ViT的中间层仍然可以保持语义多样性的观察,本文设计了一个Patch Token Contrast module(PTC)。PTC使用中间层派生的pseudo token关系来监督最后的patch tokens,允许它们对齐语义区域,从而产生更准确的CAM。其次,为了进一步区分CAM中的低置信度区域,本文设计了一个Class Token Contrast module(CTC),其灵感来自于ViT中的class tokens可以捕获高级语义。CTC通过对比不确定的局部区域和全局物体的class tokens,促进了它们之间的表示一致性。在PASCAL VOC和MS COCO数据集上的实验表明,提出的ToCo可以显著地超越其他single-stage竞争对手,并达到与当前最先进的multi-stage算法相当的性能.

主要贡献:

本文提出Patch Token Contrast(PTC)来解决ViT中的过度平滑问题。PTC通过使用中间知识监督最终的tokens,可以对抗patch的均匀性,显著提高WSSS伪标签的质量。

本文提出了Class Token Contrast(CTC),它可以对全局前景和局部不确定区域(背景)的表示进行对比,并促进了CAM中目标激活的完整性。

在PASCAL VOC[14]和MS COCO数据集[26]上的实验表明,提出的ToCo方法可以显著优于SOTA single-stage WSSS方法,并且可以达到与multi-stage竞争对手相当的性能。

网络设计:

图3。ToCo的总体框架。ToCo首先使用一个额外的分类层(cls. layer)来生产辅助CAM(aux. CAM)。在PTC模块中,利用aux. CAM来推导tokens关系,并监督最终patch tokens的成对tokens相似度,以解决过度平滑问题。在CTC模块中,将负/正图像的class tokens进行投影,并与global class token进行对比,进一步区分CAM中的低置信度区域。伪标签是用最终的CAM生成的。

如图3所示,ToCo在ViT编码器中使用一个辅助分类层来生成辅助CAM。随后利用辅助CAM生成辅助伪标签并引导PTC模块。同时,它也被用来为CTC模块生成裁剪正面和负面局部图像的提议。利用分类层获得最终CAM,并且使用该最终CAM来生成最终伪标签。

实验结果:

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

CVPR 2023 | One-to-Few:没有NMS检测也可以很强很快

ICLR 2023 | Specformer: Spectral GNNs Meet Transformers

重新审视Dropout

RestoreDet:低分辨率图像中目标检测

AAAI 2023 | 打破NAS瓶颈,AIO-P跨任务网络性能预测新框架

CLIP:语言-图像表示之间的桥梁

目标检测Trick | SEA方法轻松抹平One-Stage与Two-Stage目标检测之间的差距

少样本学习综述:技术、算法和模型

CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector

CVPR 2023|基于多层多尺度重建任务的MIM改进算法

CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!

称霸Kaggle的十大深度学习技巧

CVPR 2023 | 用于半监督目标检测的知识蒸馏方法

目标跟踪方向开源数据集资源汇总

CVPR2023 | 书生模型霸榜COCO目标检测,研究团队解读公开

Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞

高效压缩99%参数量!轻量型图像增强方案CLUT-Net开源

一文了解 CVPR 2023 的Workshop 都要做什么

CVPR'23 最新 70 篇论文分方向整理|包含目标检测、图像处理、人脸、医学影像、半监督学习等方向

目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度

PyTorch 2.0正式版来了!

CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型

CVPR2023 | 集成预训练金字塔结构的Transformer模型

AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案

大核分解与注意力机制的巧妙结合,图像超分多尺度注意网络MAN已开源!

计算机视觉各个方向交流群与知识星球

CV小知识讨论与分析(7) 寻找论文创新点的新方式

CV小知识分析与讨论(6)论文创新的一点误区

计算机视觉入门1v3辅导班

计算机视觉交流群

聊聊计算机视觉入门

posted @ 2023-03-29 16:54  CV技术指南(公众号)  阅读(416)  评论(0编辑  收藏  举报