06 2024 档案
摘要:Motivation & Abs Generalized Referring Expression Segmentation (GRES):相比于原始的RES任务,一个文本描述里可能出现多个需要分割的物体,或者没有需要分割的物体,难点在于建模不同实体之间复杂的空间关系,以及识别不存在的描述。现有的方
阅读全文
摘要:Motivation & Abs 为现有的多模态大模型引入visual grounding的能力能够增强AI对世界以及人机交互的理解,然而现有的方法通常需要对LLM的参数进行FT以学习额外的seg token,同时过拟合grounding和segmentation的数据集,这会导致对于通用知识以及指
阅读全文
摘要:Motivation & Abs 现有的结构限制了模型以端到端的方式预测多粒度分割mask;同时目前没有大规模的语义感知&粒度感知数据集,同时不同数据集之间语义和粒度的固有差异给联合训练工作带来了重大挑战。 本文提出通用图像分割模型,能够以任何粒度分割识别任何内容,给一个点作为prompt能够生成多
阅读全文
摘要:Motivation & Abs 现有的感知系统依赖人类的指示,难以主动推理以理解人类意图。 新任务:reasoning segmentation,模型需要根据给定的复杂 / 具有隐含意义的文本输出相应的seg mask。 新的benchmark:包含1000张左右图像的数据集(image-inst
阅读全文
摘要:Motivation & Abs Motivation:之前基于LLM的通用助手仅能处理文本。 数据:使用纯语言的GPT4生成多模态语言-图像指令数据。 模型:基于生成数据端到端训练的模型LLaVA,用于通用视觉语言理解。 指标:两个benchmark。 GPT-assisted Visual In
阅读全文
摘要:Motivation & Abs 端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的image encoder以及LLM引导视觉语言预训练。 模态差距:通过两阶段训练的轻量级的Query Transformer(Q-Former)弥补。第一阶段:从冻结的image e
阅读全文