LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

摘要

文章的主要贡献是提出了一种新的语言驱动的分割模型LSeg，其使用Text encoder编码描述性的输入标签，使用Image encoder计算图像的逐像素的embedding。图像编码器使用的是对比目标训练，目的是将像素的embedding与对应文本标签的embedding进行对齐。text embedding提供了灵活的标签表示，因此本文的模型可以直接进行zero-shot推理。

方法

截屏2022-10-17 22.54.32

Text encoder

Text encoder对N个标签进行编码，每个标签编码后的长度为C，因此编码后张量大小为\([N, C]\)。这里作者直接使用了预训练的CLIP的Text encoder。

Image encoder

Image encoder对每个下采样后的像素进行编码。这里使用的基础模型是DPT（dense prediction transformers），设图片大小为\(H\times W\)，下采样倍率为\(s\)，则得到的结果大小为\([\widetilde{H}̃, \widetilde{W}, C]\)，其中\(\widetilde{H} = \frac{H}{s}\)，W同理。

Word-pixel correlation tensor

将Text encoder与Image encoder得到的结果相乘得到大小为\([\widetilde{H}̃, \widetilde{W},N]\)的张量，之后在N这个维度上做softmax，其中t为温度：截屏2022-10-17 23.16.07

Spatial regularization

截屏2022-10-18 11.24.43

这个模块主要是将预测结果上采样回原图的尺寸。首先通过DepthwiseBlock或者BottleneckBlock进一步学习文本图像融合后的特征，理解文本与图像如何交互，然后通过双线性插值得到原图大小的结果。论文中说输入通道之间不应该有任何相互作用，所以使用的是DW Conv。实验证明这个模块带来的提升比较小，因此可以暂时先不去管。

实验

截屏2022-10-18 11.34.07

实验结果表明在zero-shot上效果比较好，但是即便是使用ViT-L也比不过one-shot的sota。

补充：文章提出的方法虽然是叫做文本驱动的模型，但是仍然是有监督的，loss是由计算得到的\([\widetilde{H}̃, \widetilde{W},N]\)与label算出来的，大概是用的CE。

posted @ 2022-10-18 15:55 脂环阅读(209) 评论(0) 编辑收藏举报

刷新页面返回顶部

Loading

脂环

LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

LANGUAGE-DRIVEN SEMANTIC SEGMENTATION论文阅读笔记

摘要

方法

Text encoder

Image encoder

Word-pixel correlation tensor

Spatial regularization

实验

公告