MLLM_20241101

Paper 1

题目: LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
作者团队: Meta AI, KAUST, Korea University
链接: https://arxiv.org/abs/2410.17434

1. 论文试图解决什么问题？是否是一个新问题？
MLLM长视频理解问题。是新问题。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

3. 论文提到的解决方案的关键是什么（创新点）？

4. 论文中的实验如何设计？

5. 代码是否开源？
是。

6. 用于训练和定量评估的数据集分别是什么？

训练数据集: 图像-语言预训练采用LLaVA-OneVision的单图像数据，视频-语言微调使用VideoChat2-IT数据集中的多种视频-文本配对数据。
评估基准测试: EgoSchema、MVBench、VideoMME、MLVU。

7. 论文中的实验和结果有没有很好地支持待验证的假设？
实验很充分，结果很好地支持了论文的假设。

8. 在你看来这篇论文还有哪些不足？
相比于SlowFast-LLaVA这种training-free的工作，对计算资源和数据量要求较高；本文专注于对video SFT，可能会导致对图像理解能力下降。

9. 下一步有什么工作可以深入？
文中提到DINOv2特征比SigLIP特征更有效；SVA可能比较有用；spatial token compression消除像素级冗余的方式很简洁，值得借鉴。

题目: TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment (NeurIPS 2024 Spotlight)
作者团队: 浙大，新国大
链接: https://arxiv.org/pdf/2405.13911

1. 论文试图解决什么问题？是否是一个新问题？
如何在没有真实视频数据的情况下，将大语言模型（LLM）扩展用于视频理解的问题。该问题较新，属于减少视频预训练成本和跨模态对齐的探索。

2. 有哪些相关研究？如何归类？有哪些值得关注的研究员（大牛）？

3. 论文提到的解决方案的关键是什么（创新点）？
论文的创新在于提出了Text-Only Pre-Alignment（TOPA）框架，通过生成模拟视频的文本数据集（TextVid）和跨模态对齐，使LLM无需真实视频数据即可处理视频理解任务。

4. 论文中的实验如何设计？

5. 代码是否开源？
是。

6. 用于训练和定量评估的数据集分别是什么？

7. 论文中的实验和结果有没有很好地支持待验证的假设？
实验结果很好地支持了论文的假设。

8. 在你看来这篇论文还有哪些不足？
模态差距问题、细粒度视觉理解的局限性：由于采用文本视频的生成方法，在需要精确空间信息（如对象移动方向和姿势）的任务中表现较弱。TOPA主要关注关键帧，忽略了对高帧率视频的处理能力。

9. 下一步有什么工作可以深入？
探索更好的跨模态对齐技术，如何对细粒度特征建模。

posted on 2024-11-08 21:18 LittleHenry 阅读(137) 评论(0) 收藏举报