Loading

GSVA: Generalized Segmentation via Multimodal Large Language Models论文阅读笔记

Motivation & Abs

Generalized Referring Expression Segmentation (GRES):相比于原始的RES任务,一个文本描述里可能出现多个需要分割的物体,或者没有需要分割的物体,难点在于建模不同实体之间复杂的空间关系,以及识别不存在的描述。现有的方法如LISA难以处理GRES任务,为此作者提出了GSVA,利用多个<SEG>提示分割模型生成多个mask,同时插入<REJ> token以应对没有需要分割的物体的情况。

Method

截屏2024-06-16 23.44.34

结构

与LISA类似,GSVA的结构分为MLLM(作为对齐的视觉语言认知模块)以及分割基础模型(SFM)。MLLM由decoder-based LLM \(F_{LLM}\)(自回归的形式生成文本应答)以及vision encoder \(F_{V1}\)​从输入图像提取特征,还有一个线性层对齐两个模态的特征。

不同的是,LISA 假设输入图像及其相应指令中仅存在一个目标来进行分割。然而 GSVA 将其扩展到具有多个目标和空目标的新场景,包括多个 [SEG] 标记来调用分割和 [REJ] 标记来拒绝图像中不存在的不合理指示目标。如图,GSVA 在输出序列中支持多个 [SEG]/[REJ] token,选择所有 [SEG] token并丢弃每个 [REJ] token。

GRES: Task and Challenges

Task

Generalized Referring Expression Segmentation (GRES)不对一个文本表达中的参考目标数量作出限制,目标可以是多个实例,或者没有目标。

Challenges

多目标 / 无目标。

对比Reasoning Segmentation

reasoning segmentation的指令更加隐式 / 复杂;而GRES则需要模型理解复杂的空间关系。

Multiple [SEG] Tokens for Multiple Targets

截屏2024-06-19 13.32.20

为了防止歧义,每个seg token前先给出mask的expression。这种能力可以看做隐式多模态上下文学习(ICL)。

Rejecting Empty Targets via [REJ] Tokens

GRES中与expression不匹配的目标应该被视为空目标(负样本),之前的方法如LISA则无法识别这些负样本(不存在对应的训练数据)。为此,GSVA对于图像中不存在但在expression中出现的目标预测为[REJ]:

截屏2024-06-19 14.07.58

实验

截屏2024-06-19 14.17.06

截屏2024-06-19 14.19.03

posted @ 2024-06-19 14:27  脂环  阅读(90)  评论(0编辑  收藏  举报