随笔 - 13  文章 - 0  评论 - 0  阅读 - 384

MLLM_20241117

Paper 1

  • 题目: INFERENCE OPTIMAL VLMS NEED ONLY ONE VISUAL TOKEN BUT LARGER MODELS
  • 作者团队: Kevin Y. Li, Sachin Goyal, João D. Semedo, J. Zico Kolter (CMU)
  • 链接: https://arxiv.org/abs/2411.03312

1. 论文试图解决什么问题?是否是一个新问题?
论文试图解决VLMs推理阶段的性能和计算成本之间的权衡问题,提出推理计算最优的scaling law。提出的极限视觉token压缩和scaling optimization是全新的视角。

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  • 相关研究分类
    1. 视觉token压缩:文中提到了TokenPacker和Matryoshka等(孟帆学长的组会讲得更全)。
    2. 推理优化:关注scaling law的研究,如Kaplan等人关于LLM的scaling law。
  • 值得关注的研究员
    • J. Zico Kolter(本论文作者)

3. 论文提到的解决方案的关键是什么(创新点)?

  • 创新点
    1. 提出推理优化的scaling law,量化视觉token数量和LLM规模的最佳组合。
    2. 首次揭示极限视觉token压缩(如1或4个token)的推理最优配置。
    3. 提出基于用户查询的卷积交叉注意力方法(QueCC)(这个好像就是把TokenPacker的Query换成了text的),支持极限token压缩。

4. 论文中的实验如何设计?

  • 实验设计:
    1. scaling law验证:使用不同大小的LLM(0.5B到14B)和不同视觉token数量(1到576),拟合标度曲线并预测性能。
    2. 算法比较:QueCC与现有方法(如TokenPacker、Matryoshka等)在多个任务中的性能对比。
    3. 任务场景扩展:分析OCR任务和视觉推理任务中的推理最优配置。

5. 代码是否开源?
是,https://github.com/locuslab/llava-token-compression

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集:LLaVA-Next的。
  • 评估数据集
    1. 视觉推理:GQA, MMBench, MME, ScienceQA等。
    2. OCR任务:TextVQA, DocVQA等。

7. 论文中的实验和结果有没有很好地支持待验证的假设?
实验很好地支持了假设:

  • 标度定律的拟合误差低于2%,证明推理最优配置的可预测性。
  • QueCC在极限token压缩(1或4个)下显著优于其他方法,支持论文对极限压缩的主张。

8. 在你看来这篇论文还有哪些不足?

  • 对于OCR等text recognition任务覆盖不足,没有深入讨论高信息密度场景的优化策略。
  • 提出的定律可能依赖特定模型和任务,泛化性需要进一步验证。

9. 下一步有什么工作可以深入?

  • 针对OCR等高信息密度任务的自适应压缩算法。
  • 验证该定律对其他多模态任务(如视频理解)的适用性。
  • 如何结合更复杂的用户查询和多模态上下文,优化极限压缩场景下的性能。

Paper 2

  • 题目: LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
  • 作者团队: Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi†, Alan Yuille†
  • 链接: https://arxiv.org/abs/2406.20092

1. 论文试图解决什么问题?是否是一个新问题?
视觉token冗余问题。现在看来貌似也没那么新了:(

2. 有哪些相关研究?如何归类?有哪些值得关注的研究员(大牛)?

  1. 视觉token冗余优化:略~
  2. 高效LLM训练:动态token压缩(如Pyramid Transformer)和逐步扩展模型训练深度/宽度的方法。

3. 论文提到的解决方案的关键是什么(创新点)?

  • 视觉上下文压缩器(VCC)
    • 使用平均池化(average pooling)减少视觉token数量,在保证性能的同时降低计算成本。
  • LLaVolta多阶段训练方案
    • 提出逐步减少压缩率的三阶段训练方法,兼顾训练效率和信息保留。
  • 新发现
    • 证明视觉token存在显著冗余,即使减少70%的视觉token,模型性能也仅略微下降。

4. 论文中的实验如何设计?

  • 冗余验证实验
    • 在预训练模型中,通过逐步减少视觉token数量(如70%),验证对性能的影响。
  • 多模态基准测试
    • 在13个数据集(如GQA、MM-Vet、TextVQA)上测试模型性能和训练效率。
  • 对比实验
    • 与其他压缩方法(如K均值聚类、注意力方法)比较。
  • 扩展实验
    • 在视频多模态任务中验证LLaVolta的扩展性。

5. 代码是否开源?
是,GitHub Repository

6. 用于训练和定量评估的数据集分别是什么?

  • 训练数据集:LLaVA-1.5的
  • 评估数据集
    1. 图像任务:GQA、VQA-v2、MMBench
    2. 文本识别:TextVQA
    3. 视频任务:MSVD-QA、ActivityNet-QA等

7. 论文中的实验和结果有没有很好地支持待验证的假设?
是。实验充分验证了视觉token的冗余性,LLaVolta的多阶段压缩训练显著减少了训练时间(16%)且性能提升,在9个基准测试中表现最佳,验证了其理论假设的有效性。

8. 在你看来这篇论文还有哪些不足?

  • 对于高信息密度任务(如OCR)的压缩方法探讨不足。
  • 多阶段训练方案可能在更大规模模型或超长序列上面临扩展性问题?
  • 缺乏对动态自适应压缩机制的探索。

9. 下一步有什么工作可以深入?

  • 开发适应高信息密度任务的压缩算法。
  • 自适应视觉token压缩率,根据图像内容动态调整。
posted on   LittleHenry  阅读(83)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示