随笔分类 - 论文学习
摘要:Motivation & Abs LLaVA-OneVision 是一种整合数据、模型和视觉表征的开源多模态模型,首次在单图像、多图像和视频三大计算机视觉场景中实现性能突破。其设计支持跨模态/场景的强迁移学习,尤其通过图像任务迁移展现了强大的视频理解和跨场景能力。 Method Network Ar
阅读全文
摘要:Motivation & Abs 增量推理对于MHA是非常慢的(难以并行),因为重复加载大的键/值会增大内存带宽的开销。为此作者提出了multi-query attention(MQA),其中不同注意力头共享相同的键和值,减小了增量解码的内存带宽要求。MQA可以大幅提升解码的速度,同时推理质量仅有略
阅读全文
摘要:复数几何意义:https://zhuanlan.zhihu.com/p/646598747 https://zhuanlan.zhihu.com/p/359502624 Motivation & Abs 作者提出了旋转位置编码( Rotary Position Embedding, RoPE) 的新
阅读全文
摘要:Motivation & Abs 之前的MLLM通常使用预定义的固定分辨率,Qwen2-VL引入了朴素动态分辨率,使模型能够生成更高效、更准确的视觉表示,与人类感知过程紧密结合。同时,模型还使用了多模态旋转位置编码(M-RoPE),促进了不同模态信息的有效融合。同时,作者使用了统一的范式处理图像和视
阅读全文
摘要:Motivaton & Abs 作者提出了一个简单的成对sigmoid损失以用于图像文本预训练,其仅作用于图像-文本对,不需要获取global view并进行归一化。sigmoid 损失同时允许进一步扩大 batch size,同时在较小的 batch size 上也表现得更好。最后,作者发现将ba
阅读全文
摘要:Motivation & Abs Qwen-VL系列模型,通过设计(1)视觉感受器;(2)输入输出接口;(3)3阶段训练流水线;(4)多语言多模态高质量语料库从而赋予模型视觉感受的能力。除了传统的image description以及VQA任务外,作者还通过对齐image-caption-box从而
阅读全文
摘要:Motivation & Method 关注的任务为zero-shot referring image segmentation,模型无法获得pixel-level的分割标注。之前的方法通常使用预训练的多模态模型如CLIP,然而CLIP使用图像文本对进行训练,难以做到image local patc
阅读全文
摘要:Motivation & Abs 近年来,大语言模型在视觉方面取得了极大的进步,但其如何完成定位任务(如word grounding等)仍然不清楚。本文旨在设计一种模型能够将一系列点/边界框作为输入或者输出。当模型接受定位信息作为输入时,可以进行以定位为condition的captioning。当生
阅读全文
摘要:Motivation & Abs 文章关注的任务为用VLM(如CLIP)做开放词汇分割,motivation主要来自于作者的一个观察:分割图中的噪声主要来自于残差连接,这会导致在文本-图像预训练更加强调全局特征,从而牺牲了局部判别能力,从而导致了分割结果中的噪声。为此作者提出了ClearCLIP,对
阅读全文
摘要:Motivation & Abs Generalized Referring Expression Segmentation (GRES):相比于原始的RES任务,一个文本描述里可能出现多个需要分割的物体,或者没有需要分割的物体,难点在于建模不同实体之间复杂的空间关系,以及识别不存在的描述。现有的方
阅读全文
摘要:Motivation & Abs 为现有的多模态大模型引入visual grounding的能力能够增强AI对世界以及人机交互的理解,然而现有的方法通常需要对LLM的参数进行FT以学习额外的seg token,同时过拟合grounding和segmentation的数据集,这会导致对于通用知识以及指
阅读全文
摘要:Motivation & Abs 现有的结构限制了模型以端到端的方式预测多粒度分割mask;同时目前没有大规模的语义感知&粒度感知数据集,同时不同数据集之间语义和粒度的固有差异给联合训练工作带来了重大挑战。 本文提出通用图像分割模型,能够以任何粒度分割识别任何内容,给一个点作为prompt能够生成多
阅读全文
摘要:Motivation & Abs 现有的感知系统依赖人类的指示,难以主动推理以理解人类意图。 新任务:reasoning segmentation,模型需要根据给定的复杂 / 具有隐含意义的文本输出相应的seg mask。 新的benchmark:包含1000张左右图像的数据集(image-inst
阅读全文
摘要:Motivation & Abs Motivation:之前基于LLM的通用助手仅能处理文本。 数据:使用纯语言的GPT4生成多模态语言-图像指令数据。 模型:基于生成数据端到端训练的模型LLaVA,用于通用视觉语言理解。 指标:两个benchmark。 GPT-assisted Visual In
阅读全文
摘要:Motivation & Abs 端到端大规模视觉语言预训练的开销极大。为此,本文提出了BLIP2,利用现成的冻住的image encoder以及LLM引导视觉语言预训练。 模态差距:通过两阶段训练的轻量级的Query Transformer(Q-Former)弥补。第一阶段:从冻结的image e
阅读全文
摘要:Intro 在训练集上最小化损失很可能导致泛化性低,因为当今模型的过参数化会导致training loss的landscape异常复杂且非凸,包含很多local/global minima,因此优化器的选择至关重要。loss landscape的几何性质(特别是minima的flatness)与泛化
阅读全文
摘要:Motivation & Intro 基于DETR的目标检测范式(语义分割的Maskformer也与之相似)通常会用到一系列固定的query,这些query是图像中目标对象位置和语义的全局先验。如果能够根据图像的语义信息调整query,就可以捕捉特定场景中物体位置和类别的分布。例如,当高级语义显示图
阅读全文
摘要:前置知识:【EM算法深度解析 - CSDN App】http://t.csdnimg.cn/r6TXM Motivation 目前的语义分割通常采用判别式分类器,然而这存在三个问题:这种方式仅仅学习了决策边界,而没有对数据分布进行建模;每个类仅学习一个向量,没有考虑到类内差异;OOD数据效果不好。生
阅读全文
摘要:前置知识:VAE(可以参考https://zhuanlan.zhihu.com/p/348498294) Motivation 之前的方法通常使用判别式分类器,对条件分布进行建模(classifier+softmax+ce)。其问题在于分类器会偏向最新学的类别,
阅读全文
摘要:## 摘要 先前的类增量学习方法要么难以在稳定性-可塑性之间取得较好的平衡,要么会带来较大的计算/存储开销。受gradient boosting的启发,作者提出了一种新型的两阶段学习范式FOSTER,以逐步适应目标模型和先前的集合模型之间的残差,使得该模型能够自适应地学习新的类别。具体来说,作者首先
阅读全文