CVPR 2023 | 基于Token对比的弱监督语义分割新方案!
前言 ViT可以缓解弱监督语义分割 (WSSS) 中,CAM生成伪标签无法识别完整对象区域的问题,但是它也造成过度平滑的问题。为了解决这个问题,本文提出ToCo方法,首先,由于观察到 ViT 中的中间层仍然可以保留语义多样性,设计了一个 Patch Token Contrast 模块 (PTC)。 PTC 使用从中间层派生的伪标记关系来监督最终的补丁标记,允许它们对齐语义区域,从而产生更准确的 CAM。其次,为了进一步区分 CAM 中的低置信度区域,设计了一个类标记对比模块 (CTC),CTC 通过对比它们的类标记来促进不确定局部区域和全局对象之间的表示一致性。
在 PASCAL VOC 和 MS COCO 数据集上的实验表明,所提出的 ToCo 可以显着超越其他单级竞争对手,并与最先进的多级方法实现可比的性能。
本文转载自自动驾驶之心
作者 | 王汝嘉
仅用于学术分享,若侵权请联系删除
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文:https://arxiv.org/pdf/2303.01267.pdf代码:https://github.com/rulixiang/ToCo
论文思路:
使用图像级(image-level)标签的弱监督语义分割(WSSS)通常利用类激活映射(Class Activation Map, CAM)生成伪标签。受CNN局部结构感知的限制,CAM通常无法识别完整的目标区域。虽然最近的VisionTransformer(ViT)可以弥补这个缺陷,但是本文观察到它也带来了过度平滑(over-smoothing)的问题,即最终的patch token趋向于一致。在这项工作中,本文提出Token Contrast(ToCo)来解决这个问题,并进一步探索ViT对于WSSS的优点。首先,基于ViT的中间层仍然可以保持语义多样性的观察,本文设计了一个Patch Token Contrast module(PTC)。PTC使用中间层派生的pseudo token关系来监督最后的patch tokens,允许它们对齐语义区域,从而产生更准确的CAM。其次,为了进一步区分CAM中的低置信度区域,本文设计了一个Class Token Contrast module(CTC),其灵感来自于ViT中的class tokens可以捕获高级语义。CTC通过对比不确定的局部区域和全局物体的class tokens,促进了它们之间的表示一致性。在PASCAL VOC和MS COCO数据集上的实验表明,提出的ToCo可以显著地超越其他single-stage竞争对手,并达到与当前最先进的multi-stage算法相当的性能.
主要贡献:
本文提出Patch Token Contrast(PTC)来解决ViT中的过度平滑问题。PTC通过使用中间知识监督最终的tokens,可以对抗patch的均匀性,显著提高WSSS伪标签的质量。
本文提出了Class Token Contrast(CTC),它可以对全局前景和局部不确定区域(背景)的表示进行对比,并促进了CAM中目标激活的完整性。
在PASCAL VOC[14]和MS COCO数据集[26]上的实验表明,提出的ToCo方法可以显著优于SOTA single-stage WSSS方法,并且可以达到与multi-stage竞争对手相当的性能。
网络设计:

图3。ToCo的总体框架。ToCo首先使用一个额外的分类层(cls. layer)来生产辅助CAM(aux. CAM)。在PTC模块中,利用aux. CAM来推导tokens关系,并监督最终patch tokens的成对tokens相似度,以解决过度平滑问题。在CTC模块中,将负/正图像的class tokens进行投影,并与global class token进行对比,进一步区分CAM中的低置信度区域。伪标签是用最终的CAM生成的。
如图3所示,ToCo在ViT编码器中使用一个辅助分类层来生成辅助CAM。随后利用辅助CAM生成辅助伪标签并引导PTC模块。同时,它也被用来为CTC模块生成裁剪正面和负面局部图像的提议。利用分类层获得最终CAM,并且使用该最终CAM来生成最终伪标签。

实验结果:









欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
其它文章
CVPR 2023 | One-to-Few:没有NMS检测也可以很强很快
ICLR 2023 | Specformer: Spectral GNNs Meet Transformers
AAAI 2023 | 打破NAS瓶颈,AIO-P跨任务网络性能预测新框架
目标检测Trick | SEA方法轻松抹平One-Stage与Two-Stage目标检测之间的差距
CVPR 2023 | 标注500类,检测7000类!清华大学等提出通用目标检测算法UniDetector
CVPR 2023 | 超越MAE!谷歌提出MAGE:图像分类和生成达到SOTA!
CVPR2023 | 书生模型霸榜COCO目标检测,研究团队解读公开
Vision Transformer的重参化也来啦 | RepAdpater让ViT起飞
高效压缩99%参数量!轻量型图像增强方案CLUT-Net开源
一文了解 CVPR 2023 的Workshop 都要做什么
CVPR'23 最新 70 篇论文分方向整理|包含目标检测、图像处理、人脸、医学影像、半监督学习等方向
目标检测无痛涨点新方法 | DRKD蒸馏让ResNet18拥有ResNet50的精度
CVPR2023最新Backbone | FasterNet远超ShuffleNet、MobileNet、MobileViT等模型
CVPR2023 | 集成预训练金字塔结构的Transformer模型
AAAI 2023 | 一种通用的粗-细视觉Transformer加速方案
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!