Cross Language Image Matching for Weakly Supervised Semantic Segmentation论文阅读笔记

摘要

目前的类激活图通常只激活区分度较高的目标区域,且会包含与目标相关的背景(文章中举例为如果要分割的是火车,轨道对分类也有一定的贡献,而轨道作为背景不应该被分割)。为解决这一问题,作者提出了一种基于CLIP的跨语言图像匹配框架CLIMS,引入自然语言作为监督信号,从而更准确、紧凑地激活目标区域。

方法

截屏2023-03-01 21.00.16

上图中,先通过backbone得到CAM,记为P(注意这里没有GAP):

Pk(h,w)=σ(WkTZ(h,w))

为了能够识别其他的物体类别,作者提出了基于CLIP的tex-driven evaluator,其包含一个image encoder fi以及一个text encoder ft,用Pk以及1Pk对原图处理得到对于当前类k的前景物体与背景物体,分别送入fi得到vkiovkib

vkio=fi(X·Pk),vkib=fi(X·(1Pk))

对于文本特征,第k个类的文本prompt表述tko为:"a photo of {}",如"a photo of train",与之相关的背景文本prompt表述tk,lb则是预先定义好的,例如对于boat这个类的背景表述tk,ob为"a photo of a lake",tk,1b为"a photo of a river",分别送入text encoder得到vkto以及vk,ltb

vkto=ft(tko),vk,ltb=ft(tk,lb)

其中k,l指的是对于类别k的第l个相关的背景。

得到了这些特征之后,就可以计算损失了。第一个损失是物体区域与文本标签的匹配损失LOTM

LOTM=Σk=1Kyk·log(skoo)

如果当前图像的标签中有第k个类的话则yk=1skoovkiovkto的余弦相似度。

第二个损失是背景标签与文本区域的匹配损失LBTM

LBTM=Σk=1Kyk·log(1skbo)skbo=sim(vkib,vkto)

这个损失的目的是尽量减小与背景的相似度。

上述两个损失只能保证P完全覆盖目标对象,没有考虑到对于与当前类别共同出现的背景类别的错误激活。为此,作者提出了共现背景抑制损失LCBS

LCBS=Σk=1KΣl=1Lyk·log(1sk,lob)sk,lob=sim(vkio,vk,ltb)

如果仅有以上损失,当目标物体与不相关的背景一同出现时,CLIP仍然可以正确识别,因此,作者还设计了一个像素级别的区域正则项,限制激活图的大小从而保证不相关的背景被排除在Pk以外:

LREG=1KΣk=1KSk,Sk=1HWΣh=1HΣw=1WPk(h,w)

总的损失就是这四项损失的和,通过超参数加以调节:

L=αLOTM+βLBTM+γLCBS+δLREG

总的来说,就是借助这四项损失去优化分割网络,无需像素级别的gt就能达到很好的性能。推理时直接用训练好的backbone即可。

实验

截屏2023-03-01 23.51.03

截屏2023-03-01 23.51.19

截屏2023-03-01 23.51.37

posted @   脂环  阅读(84)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示
主题色彩