摘要:
Motivation & Method 关注的任务为zero-shot referring image segmentation,模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP,然而CLIP使用图像文本对进行训练,难以做到image local patc 阅读全文
摘要:
Motivation & Abs 近年来,大语言模型在视觉方面取得了极大的进步,但其如何完成定位任务(如word grounding等)仍然不清楚。本文旨在设计一种模型能够将一系列点/边界框作为输入或者输出。当模型接受定位信息作为输入时,可以进行以定位为condition的captioning。当生 阅读全文
摘要:
Motivation & Abs 文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对 阅读全文
摘要:
Motivation & Abs Generalized Referring Expression Segmentation (GRES):相比于原始的RES任务,一个文本描述里可能出现多个需要分割的物体,或者没有需要分割的物体,难点在于建模不同实体之间复杂的空间关系,以及识别不存在的描述。现有的方 阅读全文
摘要:
Motivation & Abs 为现有的多模态大模型引入visual grounding的能力能够增强AI对世界以及人机交互的理解,然而现有的方法通常需要对LLM的参数进行FT以学习额外的seg token,同时过拟合grounding和segmentation的数据集,这会导致对于通用知识以及指 阅读全文
摘要:
Motivation & Abs 现有的结构限制了模型以端到端的方式预测多粒度分割mask;同时目前没有大规模的语义感知&粒度感知数据集,同时不同数据集之间语义和粒度的固有差异给联合训练工作带来了重大挑战。 本文提出通用图像分割模型,能够以任何粒度分割识别任何内容,给一个点作为prompt能够生成多 阅读全文
摘要:
Motivation & Abs 现有的感知系统依赖人类的指示,难以主动推理以理解人类意图。 新任务:reasoning segmentation,模型需要根据给定的复杂 / 具有隐含意义的文本输出相应的seg mask。 新的benchmark:包含1000张左右图像的数据集(image-inst 阅读全文
摘要:
Motivation & Abs Motivation:之前基于LLM的通用助手仅能处理文本。 数据:使用纯语言的GPT4生成多模态语言-图像指令数据。 模型:基于生成数据端到端训练的模型LLaVA,用于通用视觉语言理解。 指标:两个benchmark。 GPT-assisted Visual In 阅读全文
摘要:
Motivation & Abs 端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的image encoder以及LLM引导视觉语言预训练。 模态差距:通过两阶段训练的轻量级的Query Transformer(Q-Former)弥补。第一阶段:从冻结的image e 阅读全文
摘要:
参考: 求一个games101图形学课程的环境配置教程,最好能够简单易懂,CSDN教程根本看不懂什么意思? - 不泊的回答 - 知乎 https://www.zhihu.com/question/459126051/answer/3420947842 macos现在怎么装homebrew? - My 阅读全文