MMMU-Pro:评估大规模多学科多模态理解和推理能力

2024-09-04,由MMMU 团队创建用于评估大规模多学科多模态模型的理解和推理能力的基准。

目前遇到问题和挑战:

  1. 文本依赖性问题:一些现有基准测试中的问题可以通过仅使用文本模型来回答,而不需要视觉信息。

  2. 选项空间有限:在多项选择格式中,选项数量有限,模型可能通过猜测或利用选项之间的微妙线索来找到正确答案。

  3. 视觉和文本信息的整合能力不足:现有模型可能没有很好地测试其将视觉和文本信息结合在一起进行理解和推理的能力。

  4. 现实世界场景的模拟不足:现有的基准测试可能没有充分模拟用户与AI系统交互时的真实场景,例如,用户可能会分享包含文本和图像的屏幕截图。

 

MMMU-Pro :

MMMU-Pro通过基于MMMU的三步过程严格评估多模态模型的真实理解和推理能力:(1)过滤掉纯文本模型可回答的问题,(2)增强候选选项,(3)引入仅视觉输入设置,其中问题嵌入图像中。这种设置挑战人工智能同时真正“看”和“读”,测试无缝整合视觉和文本信息的基本人类认知技能。

1、过滤掉纯文本模型可回答的问题(LLM Filtering):

  • 这一步骤的目的是排除那些仅通过文本信息就能回答的问题。通过使用文本-only的语言模型(如 Llama3-70B-Instruct、Qwen2-72B-Instruct 等)来尝试回答 MMMU 中的问题,即使这些问题通常需要结合图像来理解。

  • 如果这些文本模型在多次尝试中能够正确回答某个问题,那么这个问题就会被标记为可以通过文本信息回答,并在 MMMU-Pro 中被排除。

2、增加候选选项(Option Augmentation):

  • 在这一步骤中,将候选答案的数量从四个增加到十个。这样做可以减少模型通过猜测来正确回答问题的可能性,迫使模型更深入地处理多模态内容(即文本和图像信息)。

  • 通过增加更多的选项,评估模型在面对更多干扰项时的推理和选择能力。

3、引入仅视觉输入设置(Photos/Screenshots):

  • 这是 MMMU-Pro 中最关键的一步,它要求模型在没有文本输入的情况下,仅通过图像中的信息来回答问题。

  • 评估时,问题被嵌入到屏幕截图或照片中,模型需要从视觉输入中提取和理解文本信息,然后将这些信息与图像内容结合起来以得出答案。

  • 这种设置模拟了人类如何在没有明确文本提示的情况下,通过视觉和文本信息的无缝整合来理解场景,这对于模型来说是一个重大挑战。

经过三个步骤的筛选和增强后,最终获得了3460个问题,其中包括标准格式的1730个样本和以屏幕截图或照片形式呈现的另外1730个样本。

MMMU-Pro 能够更准确地评估模型是否真正理解了多模态信息,并且能够在没有明显线索或捷径的情况下进行复杂推理。这种方法更接近现实世界的应用场景,其中 AI 系统通常需要处理混合了文本和图像的复杂视觉输入。

posted @ 2024-09-09 09:00  数据猎手小k  阅读(18)  评论(0编辑  收藏  举报  来源