MLLM_20241121
Paper 1
- 题目: Classification Done Right for Vision-Language Pre-Training
- 作者团队: 字节豆包大模型团队
- 链接: https://arxiv.org/abs/2411.03313
1. 论文试图解决什么问题?是否是一个新问题?
当前视觉-语言预训练模型(如 CLIP)在训练中计算成本高的问题,特别是大批量对比学习和对文本编码器的依赖。这并不是一个全新的问题,但该研究提出了一个新颖的解决方案:用基于分类的方法替代对比学习。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
- 相关研究分类:
- 基于分类的视觉-语言模型:如 Image-to-Word, Tag2Text, CatLIP。
- 基于对比学习的模型:CLIP, ALIGN, OpenCLIP。
- 基于自回归目标的模型:SimVLM, CapPa。
- 值得关注的研究员:
- Alec Radford(CLIP 的核心研究者)
- Jiashi Feng(参与多个视觉-语言模型的研究)
3. 论文提到的解决方案的关键是什么(创新点)?
- 提出了一种名为 SuperClass 的预训练方法:
- 直接将子词(subword)作为分类标签,无需文本编码器和额外预处理。
- 通过简单的分类损失(Softmax)进行优化,并引入逆文档频率(IDF)作为类别权重。
- 方法实现了与 CLIP 类似甚至更好的性能,同时显著降低计算成本。
4. 论文中的实验如何设计?
- 数据规模实验:比较模型在不同见样本数量(128M、512M、1.28B)下的性能。
- 模型规模实验:评估 ViT-Small、ViT-Base 和 ViT-Large 在分类与视觉-语言任务中的表现。
- 对比实验:与 CLIP、DINOv2 等当前主流方法在 ImageNet-1K、COCO Caption 等多个基准上的性能对比。
- 消融实验:研究分词器类型、损失函数、是否使用 IDF 等对性能的影响。
5. 代码是否开源?
是。代码和模型在 https://github.com/x-cls/superclass 。
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集:Datacomp-1B(包含 13 亿图文配对样本)
- 评估数据集:
- 分类任务:ImageNet-1K、Pets、Cars
- 视觉-语言任务:COCO Captions、VQAv2、VizWiz 等
7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验结果表明,SuperClass 方法在分类和视觉-语言任务上均超过或接近对比学习的性能,尤其是在资源受限的设置下表现更优。这支持了其关键假设:分类方法可以替代对比学习,并具有良好的扩展性和高效性。
8. 在你看来这篇论文还有哪些不足?
- 无法捕捉文本的词序和对象关系,限制了监督信号的丰富性。
- 缺乏训练时间的具体比较,无法直观了解效率提升的实际情况。
9. 下一步有什么工作可以深入?
- 研究如何结合词序和对象关系以增强监督信号。
- 结合大规模语言模型以更深入地挖掘视觉-语言表示的潜力。
Paper 2
- 题目: LLaVA-o1: Let Vision Language Models Reason Step-by-Step
- 作者团队: 北大、清华、阿里
- 链接: https://arxiv.org/abs/2411.10440
1. 论文试图解决什么问题?是否是一个新问题?
论文试图解决现有视觉语言模型在复杂推理任务中缺乏结构化推理能力的问题。
-
推理过程不够系统化,容易发生逻辑错误。
-
无法充分利用视觉信息和语言推理能力的结合。
这是一个相对新问题。
2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?
视觉问答(VQA)模型、链式推理(Chain-of-Thought, CoT)、推理扩展方法(Inference Scaling)Best-of-N 搜索、句子级 Beam Search。
3. 论文提到的解决方案的关键是什么(创新点)?
- 多阶段推理框架: 将推理过程分为四阶段:Summary、Caption、Reasoning、Conclusion,明确结构化推理过程。
- 数据集构建: 用gpt-4o构建 LLaVA-o1-100k 数据集,整合多种数据源并加入多阶段推理注释。
- 推理扩展方法: 设计 Stage-Level Beam Search 方法,在推理过程中动态筛选最优候选答案,提升推理稳定性和准确性。
4. 论文中的实验如何设计?
-
实验目标:验证 LLaVA-o1 在复杂推理任务中的性能。
-
基准测试:六个多模态基准,包括 MMStar、MathVista、AI2D 等。
-
对比实验: 1. 与基础模型(Llama-3.2-11B-Vision-Instruct)比较。 2. 消融实验验证多阶段标记的作用。 3. 与 Best-of-N 搜索和句子级 Beam Search 方法对比。
5. 代码是否开源?
即将开源。
6. 用于训练和定量评估的数据集分别是什么?
- 训练数据集:LLaVA-o1-100k 数据集,包括ShareGPT4V、ChartQA、AI2D、CLEVR 等。
- 评估数据集:MMStar、MMBench、MathVista、AI2D、Hallusion-Bench
7. 论文中的实验和结果有没有很好地支持待验证的假设?
论文实验和结果有效支持假设:
- LLaVA-o1 在所有基准测试中相较于基础模型和传统方法表现更优。
- 消融实验验证了多阶段标记和 Stage-Level Beam Search 的重要性。
8. 在你看来这篇论文还有哪些不足?
-
名字起的不好,噱头太大了,既不包含llava也不包含o1。其实跟真正o1的技术路线差的挺远,已经被喷的改名了 -
多阶段推理和 Stage-Level Beam Search 对计算资源的影响?
9. 下一步有什么工作可以深入?
比如引入post-training和reflective error correction mechanism
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?