世界模型和空间智能
空间思考:多模态大型语言模型如何看待、记忆和回忆空间
VSI 工作台
基准概述:我们开发了 VSI-Bench,这是一个用于评估多模态 LLM (MLLM) 视觉空间智能的基准,使用来自 288 个自我中心视频的 5,000 多个问答对,这些视频来自公共室内 3D 场景重建数据集 ScanNet、ScanNet++ 和 ARKitScenes 的验证集。VSI-Bench 包括三种任务类型下的八个任务:配置、测量估计和时空。有关 VSI-Bench 中任务的概述,请参见图 2,有关数据集统计信息,请参见图 3。VSI-Bench 经过迭代改进以提高质量,为研究 MLLM 和 3D 重建之间的联系奠定了基础。
VSI-Bench 构建: 我们开发了一套强大的流程来构建 VSI-Bench,从而能够大规模生成高质量的问答 (QA) 对。从数据收集和统一开始,我们将各种 3D 室内场景数据集标准化为统一的元信息格式,并结合对象类别、边界框和视频规范,以支持与数据集无关的 QA 生成。QA 对是使用来自元信息和特定于任务的问题模板的自动注释生成的,路线规划任务则由人工注释。为了确保质量,我们实施了人机协作的审查流程,通过解决评估人员标记的歧义和错误,迭代地完善问题模板、注释和 QA 生成规则。
评估设置:我们对来自不同模型系列的 15 个支持视频的 MLLM 进行了基准测试。对于专有模型,我们考虑 Gemini-1.5 和 GPT-4o。对于开源模型,我们评估来自 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 的模型。所有评估均在零样本设置下进行,使用默认提示和贪婪解码以确保可重复性。使用多项选择题答案 (MCA) 准确度或我们提出的数值答案 (NA) 任务的平均相对准确度 (MRA) 来评估任务。
主要结果:人类评估者的平均准确率达到 79%,比最佳模型高出 33%,在配置和时空任务上的表现接近完美(94%-100%)。然而,在需要精确估计的测量任务上,差距缩小了,MLLM 在定量任务中表现出相对优势。在专有模型中,Gemini-1.5 Pro 脱颖而出,尽管只在 2D 数字数据上进行训练,但它显著超过了机会基线,并在绝对距离和房间大小估计等任务中接近人类表现。表现最佳的开源模型,如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B,取得了有竞争力的结果,仅落后于 Gemini-1.5 Pro 4%-5%。然而,大多数开源模型(7/12)都低于机会基线,暴露出视觉空间智能的明显缺陷。
MLLM 如何从语言角度思考空间问题
为了更好地理解模型成功或失败的时间和原因,并阐明它们所拥有的视觉空间智能的各个方面,我们研究了 MLLM 如何从语言角度进行空间思考。
案例研究:在成功示例中,该模型展示了高级视频理解能力,具有准确的时间戳描述和正确的逐步推理过程。全局坐标系的使用表明,MLLM 可以通过整合空间背景和推理来构建隐式世界模型。在错误情况下,该模型在自我中心-他心转换中失败,由于依赖自我中心视图而错误地解释视频序列,导致空间推理有缺陷。
MLLM 如何以视觉方式思考空间
由于人类在进行空间推理时会下意识地构建空间的心理表征,因此我们探索 MLLM 如何记住空间。
通过认知地图进行探索:我们通过提示 Gemini-1.5 Pro 根据视频输入预测 10 x 10 网格内的物体中心位置来评估 MLLM 创建认知地图(一种空间表示框架)的能力。通过将预测的物体距离与地面真实地图进行比较来测量准确度,将一个网格单元内的偏差视为正确。该模型在定位近距离物体方面实现了 64% 的准确率,这表明其具有强大的局部空间意识。然而,该模型在较大的距离上确实存在困难,这反映了它在从离散视频帧形成全局空间表示方面面临的挑战。
通过认知地图实现更好的距离推理:我们探索认知地图是否可以通过提示 Gemini-1.5 Pro 从视频输入生成地图并用它来回答相对距离问题来增强 MLLM 的空间推理能力。结果显示,使用模型自己的地图可将准确度提高 10%,使用地面实况地图可将准确度提高 20%-32%,这凸显了准确的心理意象对于强化全局场景拓扑的价值。这表明认知地图是一种有前途的方法来改善 MLLM 的视觉空间推理能力。
结论
我们通过构建 VSI-Bench 并研究 MLLM 在其上的表现和行为来研究模型如何观察、记忆和回忆空间。我们对 MLLM 如何在语言和视觉上思考空间的分析确定了视觉空间智能的现有优势(例如,突出的感知、时间和语言能力)和瓶颈(例如,自我中心-他心转换和关系推理)。虽然现行的语言提示方法无法改善空间推理,但构建显式认知图确实可以增强 MLLM 的空间距离推理能力。
@article{yang2024think, title={{Thinking in Space: How Multimodal Large Language Models See, Remember and Recall Spaces}}, author={Yang, Jihan and Yang, Shusheng and Gupta, Anjali W. and Han, Rilyn and Fei-Fei, Li and Xie, Saining}, year={2024}, journal={arXiv preprint arXiv:2412.14171}, }
如果这篇文章帮助到了你,你可以请作者喝一杯咖啡