MLLM_20241117

Paper 1

1. 论文试图解决什么问题？是否是一个新问题？
论文试图解决VLMs推理阶段的性能和计算成本之间的权衡问题，提出推理计算最优的scaling law。提出的极限视觉token压缩和scaling optimization是全新的视角。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

相关研究分类：
1. 视觉token压缩：文中提到了TokenPacker和Matryoshka等（孟帆学长的组会讲得更全）。
2. 推理优化：关注scaling law的研究，如Kaplan等人关于LLM的scaling law。
值得关注的研究员：
- J. Zico Kolter（本论文作者）

3. 论文提到的解决方案的关键是什么（创新点）？

创新点：
1. 提出推理优化的scaling law，量化视觉token数量和LLM规模的最佳组合。
2. 首次揭示极限视觉token压缩（如1或4个token）的推理最优配置。
3. 提出基于用户查询的卷积交叉注意力方法（QueCC）(这个好像就是把TokenPacker的Query换成了text的)，支持极限token压缩。

4. 论文中的实验如何设计？

实验设计：
1. scaling law验证：使用不同大小的LLM（0.5B到14B）和不同视觉token数量（1到576），拟合标度曲线并预测性能。
2. 算法比较：QueCC与现有方法（如TokenPacker、Matryoshka等）在多个任务中的性能对比。
3. 任务场景扩展：分析OCR任务和视觉推理任务中的推理最优配置。

5. 代码是否开源？
是，https://github.com/locuslab/llava-token-compression

6. 用于训练和定量评估的数据集分别是什么？

7. 论文中的实验和结果有没有很好地支持待验证的假设？
实验很好地支持了假设：

8. 在你看来这篇论文还有哪些不足？

9. 下一步有什么工作可以深入？

题目: LLaVolta: Efficient Multi-modal Models via Stage-wise Visual Context Compression
作者团队: Jieneng Chen, Luoxin Ye, Ju He, Zhao-Yang Wang, Daniel Khashabi†, Alan Yuille†
链接: https://arxiv.org/abs/2406.20092

1. 论文试图解决什么问题？是否是一个新问题？
视觉token冗余问题。现在看来貌似也没那么新了:(

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

3. 论文提到的解决方案的关键是什么（创新点）？

4. 论文中的实验如何设计？

5. 代码是否开源？
是，GitHub Repository

6. 用于训练和定量评估的数据集分别是什么？

训练数据集：LLaVA-1.5的
评估数据集：
1. 图像任务：GQA、VQA-v2、MMBench
2. 文本识别：TextVQA
3. 视频任务：MSVD-QA、ActivityNet-QA等

7. 论文中的实验和结果有没有很好地支持待验证的假设？
是。实验充分验证了视觉token的冗余性，LLaVolta的多阶段压缩训练显著减少了训练时间（16%）且性能提升，在9个基准测试中表现最佳，验证了其理论假设的有效性。

8. 在你看来这篇论文还有哪些不足？

9. 下一步有什么工作可以深入？

posted on 2024-11-17 21:37 LittleHenry 阅读(199) 评论(0) 收藏举报