MLLM_20241121

Paper 1

1. 论文试图解决什么问题？是否是一个新问题？
当前视觉-语言预训练模型（如 CLIP）在训练中计算成本高的问题，特别是大批量对比学习和对文本编码器的依赖。这并不是一个全新的问题，但该研究提出了一个新颖的解决方案：用基于分类的方法替代对比学习。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

相关研究分类：
1. 基于分类的视觉-语言模型：如 Image-to-Word, Tag2Text, CatLIP。
2. 基于对比学习的模型：CLIP, ALIGN, OpenCLIP。
3. 基于自回归目标的模型：SimVLM, CapPa。
值得关注的研究员：
- Alec Radford（CLIP 的核心研究者）
- Jiashi Feng（参与多个视觉-语言模型的研究）

3. 论文提到的解决方案的关键是什么（创新点）？

提出了一种名为 SuperClass 的预训练方法：
1. 直接将子词（subword）作为分类标签，无需文本编码器和额外预处理。
2. 通过简单的分类损失（Softmax）进行优化，并引入逆文档频率（IDF）作为类别权重。
3. 方法实现了与 CLIP 类似甚至更好的性能，同时显著降低计算成本。

4. 论文中的实验如何设计？

5. 代码是否开源？
是。代码和模型在 https://github.com/x-cls/superclass 。

6. 用于训练和定量评估的数据集分别是什么？

训练数据集：Datacomp-1B（包含 13 亿图文配对样本）
评估数据集：
1. 分类任务：ImageNet-1K、Pets、Cars
2. 视觉-语言任务：COCO Captions、VQAv2、VizWiz 等

7. 论文中的实验和结果有没有很好地支持待验证的假设？
实验结果表明，SuperClass 方法在分类和视觉-语言任务上均超过或接近对比学习的性能，尤其是在资源受限的设置下表现更优。这支持了其关键假设：分类方法可以替代对比学习，并具有良好的扩展性和高效性。

8. 在你看来这篇论文还有哪些不足？

9. 下一步有什么工作可以深入？

1. 论文试图解决什么问题？是否是一个新问题？

论文试图解决现有视觉语言模型在复杂推理任务中缺乏结构化推理能力的问题。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

视觉问答（VQA）模型、链式推理（Chain-of-Thought, CoT）、推理扩展方法（Inference Scaling）Best-of-N 搜索、句子级 Beam Search。

3. 论文提到的解决方案的关键是什么（创新点）？

4. 论文中的实验如何设计？

实验目标：验证 LLaVA-o1 在复杂推理任务中的性能。
基准测试：六个多模态基准，包括 MMStar、MathVista、AI2D 等。
对比实验： 1. 与基础模型（Llama-3.2-11B-Vision-Instruct）比较。 2. 消融实验验证多阶段标记的作用。 3. 与 Best-of-N 搜索和句子级 Beam Search 方法对比。

5. 代码是否开源？
即将开源。

6. 用于训练和定量评估的数据集分别是什么？

7. 论文中的实验和结果有没有很好地支持待验证的假设？

论文实验和结果有效支持假设：

8. 在你看来这篇论文还有哪些不足？

9. 下一步有什么工作可以深入？

比如引入post-training和reflective error correction mechanism

posted on 2024-12-06 18:39 LittleHenry 阅读(108) 评论(0) 收藏举报