Loading

LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

摘要

文章的主要贡献是提出了一种新的语言驱动的分割模型LSeg,其使用Text encoder编码描述性的输入标签,使用Image encoder计算图像的逐像素的embedding。图像编码器使用的是对比目标训练,目的是将像素的embedding与对应文本标签的embedding进行对齐。text embedding提供了灵活的标签表示,因此本文的模型可以直接进行zero-shot推理。

方法

截屏2022-10-17 22.54.32

Text encoder

Text encoder对N个标签进行编码,每个标签编码后的长度为C,因此编码后张量大小为\([N, C]\)。这里作者直接使用了预训练的CLIP的Text encoder。

Image encoder

Image encoder对每个下采样后的像素进行编码。这里使用的基础模型是DPT(dense prediction transformers),设图片大小为\(H\times W\),下采样倍率为\(s\),则得到的结果大小为\([\widetilde{H}̃, \widetilde{W}, C]\),其中\(\widetilde{H} = \frac{H}{s}\),W同理。

Word-pixel correlation tensor

将Text encoder与Image encoder得到的结果相乘得到大小为\([\widetilde{H}̃, \widetilde{W},N]\)的张量,之后在N这个维度上做softmax,其中t为温度:截屏2022-10-17 23.16.07

Spatial regularization

截屏2022-10-18 11.24.43

这个模块主要是将预测结果上采样回原图的尺寸。首先通过DepthwiseBlock或者BottleneckBlock进一步学习文本图像融合后的特征,理解文本与图像如何交互,然后通过双线性插值得到原图大小的结果。论文中说输入通道之间不应该有任何相互作用,所以使用的是DW Conv。实验证明这个模块带来的提升比较小,因此可以暂时先不去管。

实验

截屏2022-10-18 11.34.07

实验结果表明在zero-shot上效果比较好,但是即便是使用ViT-L也比不过one-shot的sota。

补充:文章提出的方法虽然是叫做文本驱动的模型,但是仍然是有监督的,loss是由计算得到的\([\widetilde{H}̃, \widetilde{W},N]\)与label算出来的,大概是用的CE。

posted @ 2022-10-18 15:55  脂环  阅读(191)  评论(0编辑  收藏  举报