LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

摘要

文章的主要贡献是提出了一种新的语言驱动的分割模型LSeg,其使用Text encoder编码描述性的输入标签,使用Image encoder计算图像的逐像素的embedding。图像编码器使用的是对比目标训练,目的是将像素的embedding与对应文本标签的embedding进行对齐。text embedding提供了灵活的标签表示,因此本文的模型可以直接进行zero-shot推理。

方法

截屏2022-10-17 22.54.32

Text encoder

Text encoder对N个标签进行编码,每个标签编码后的长度为C,因此编码后张量大小为[N,C]。这里作者直接使用了预训练的CLIP的Text encoder。

Image encoder

Image encoder对每个下采样后的像素进行编码。这里使用的基础模型是DPT(dense prediction transformers),设图片大小为H×W,下采样倍率为s,则得到的结果大小为[H~̃,W~,C],其中H~=Hs,W同理。

Word-pixel correlation tensor

将Text encoder与Image encoder得到的结果相乘得到大小为[H~̃,W~,N]的张量,之后在N这个维度上做softmax,其中t为温度:截屏2022-10-17 23.16.07

Spatial regularization

截屏2022-10-18 11.24.43

这个模块主要是将预测结果上采样回原图的尺寸。首先通过DepthwiseBlock或者BottleneckBlock进一步学习文本图像融合后的特征,理解文本与图像如何交互,然后通过双线性插值得到原图大小的结果。论文中说输入通道之间不应该有任何相互作用,所以使用的是DW Conv。实验证明这个模块带来的提升比较小,因此可以暂时先不去管。

实验

截屏2022-10-18 11.34.07

实验结果表明在zero-shot上效果比较好,但是即便是使用ViT-L也比不过one-shot的sota。

补充:文章提出的方法虽然是叫做文本驱动的模型,但是仍然是有监督的,loss是由计算得到的[H~̃,W~,N]与label算出来的,大概是用的CE。

posted @   脂环  阅读(260)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
历史上的今天:
2021-10-18 理解转置卷积
2020-10-18 转载——vim命令操作
点击右上角即可分享
微信分享提示
主题色彩