随笔分类 - 论文
论文笔记
摘要:BLIP3-o 是一套完全开源(权重,预训练数据集,微调数据集)、统一图像理解与生成的大模型家族,采用自回归 + diffusion 架构,并在多项图文任务中取得最优表现. Q1:为何要用 CLIP 表征图像? A:CLIP 特征是“语义丰富”的高层次表征,适合图文对齐,也方便统一理解与生成。 Q2
阅读全文
摘要:UniME 提出了一种利用多模态大语言模型(MLLM)学习通用嵌入表示的新框架,在多种跨模态任务中实现了显著性能提升 Q1:为什么传统 CLIP 表示不适合复杂跨模态任务? A:因为 CLIP 的图文编码是分离的,它不能理解图像和语言之间复杂的上下文关系,尤其在长文本和多元素组合时容易丢失语义。 Q
阅读全文
摘要:InternVL3 是一款原生多模态预训练的大模型系列,在图文理解、工具使用、视频分析等方面实现全面升级,模型规模覆盖 1B–78B,全线在开源模型中表现优异。 概述 InternVL3 是 OpenGVLab 团队推出的第三代多模态大模型,继承并全面超越 InternVL2.5。 它采用 原生多模
阅读全文
摘要:VisualPRM 是首个多模态过程奖励模型(PRM),通过评估“推理过程的每一步”显著提升多模态大模型(MLLMs)的推理能力,提出了专属训练集 VisualPRM400K 与评估基准 VisualProcessBench。** 背景 多模态大模型在感知与识别方面已表现出色,但在复杂推理能力上仍落
阅读全文
摘要:Kimi-VL 仅激活 2.8B 参数就能实现多项 SOTA 表现 Kimi-VL-Thinking 是其“深度思考”版本,专注于复杂长链推理,适用于科研、教学、AI agent 等场景。 背景 随着 GPT-4o 等多模态模型的发布,AI 正在向“视觉 + 语言”深度融合发展。然而开源社区在多模态
阅读全文
摘要:https://arxiv.org/abs/2502.13923 https://github.com/QwenLM/Qwen2.5-VL 背景介绍 目前VLMs虽然能胜任各类任务,却难以像LLM那样达到卓越表现。主要发展瓶颈在于:计算复杂度、有限的上下文理解能力、细粒度视觉感知能力差、输出序列长度
阅读全文
摘要:能看图、听声音、看视频,还能实时说话、写文字,Qwen2.5-Omni 让多模态 AI 更进一步。 摘要速览 Qwen2.5-Omni 是 Qwen 团队发布的一款真正“全能型”的多模态大模型,支持文本、图像、音频、视频的输入,并能以文本和语音的形式同步输出,且具备流式处理能力。它不仅在 OmniB
阅读全文
摘要:Visual-RFT: RFT in VLM 主要内容 我们引入了视觉强化微调( Visual Reinforcement Fine- Tuning,Visual-RFT ),在有限数据微调有效的视觉感知任务上扩展了可验证奖励的强化学习。 我们为不同的视觉任务设计了不同的可验证奖励,以可忽略的成本实
阅读全文
摘要:AutoGLM: 针对Web和手机,基于ChatGLM,具体细节并不清楚。 主要内容 提出AUTOGLM,集成了一套全面的技术和基础设施,以创建适合用户交付的可部署代理系统。首先,为GUI控制设计合适的"intermediate interface"是至关重要的,可以实现规划和定位的分离。其次,开发
阅读全文
摘要:SeeClick: screen shot + VLM 实现agent, 提出了ScreenSpot数据集。 主要内容 提出SeeClick方法,仅依靠屏幕截图实现任务自动化。作者认为gui-agent的一个关键挑战是grounding。因此通过gui-grounding预训练来增强See Clic
阅读全文
摘要:CogAgent: 利用VLM操作GUI。 官方技术报告 主要内容 提出了一个18B的VLM模型CogAgent(CogVLM的新版本),旨在提高对于GUI的理解、导航和交互能力。利用高分辨率和低分辨率编码器适应不同分辨率的输入,在9个VQA benchmarks上取得了sota。同时,CogAge
阅读全文
摘要:InternVL1.5: 更强的视觉编码器,动态处理高分辨率图像,高质量的双语数据集。 主要内容 对标商业模型,提出InternVL1.5。更强的视觉编码器(InternViT-6B),动态处理高分辨率图像(将图像分成448*448的tails,最高支持4K分辨率),高质量的双语数据集(显著提高了O
阅读全文

浙公网安备 33010602011771号