MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

  新智元报道

  编辑:LRS

  MMMU-Pro 通过三步构建过程(筛选问题、增加候选选项、引入纯视觉输入设置)更严格地评估模型的多模态理解能力;模型在新基准上的性能下降明显,表明 MMMU-Pro 能有效避免模型依赖捷径和猜测策略的情况。

  多模态大型语言模型(MLLMs)在各个排行榜上展现的性能不断提升,例如 GPT-4o 在大学水平上的多学科多模态理解和推理(MMMU)基准测试中取得了 69.1% 的准确率。

  不过,基准测试结果是否真的能反映模型对多样化主题的深入理解,仍然有争议,或者说模型是否只是利用了统计模式,而非依靠理解和推理的情况下就能得出正确答案?

  为了解决这一问题并推动多模态 AI 评估的边界,MMMU 团队对 MMMU 基准在健壮性和问题难度上进行提升,新基准 MMMU-Pro 能够更准确、更严格地评估模型在广泛的学科领域内真正的多模态理解和推理能力。

  论文链接:https://arxiv.org/abs/2409.02813

  MMMU-Pro 的构建过程包括三步:

  1. 过滤掉纯文本模型可回答的问题;

  2. 由人类专家将候选选项增加到 10 个,以减少模型蒙对答案的概率;

  3. 引入纯视觉输入设置,即问题直接写在图像中,既要求模型像人一样同时具有「看」和「读」的能力,也可以在现实场景中直接将模型用于屏幕截图或照片,无需分离问题与图片;

  实验结果显示,模型在 MMMU-Pro 上的性能明显低于 MMMU,下降 16.8% 到 26.9%,模型的排名通常与原始模型相似,但 GPT-4o mini 模型的健壮性与 GPT-4o 相比,健壮性较差。

  研究人员中还探讨了 OCR 提示和思想链 (CoT) 推理的影响,结果发现 OCR 提示的影响很小,而 CoT 通常可以提高性能。

  MMMU-Pro:更健壮的 MMMU

  重新审视 MMMU 基准测试

  大规模多学科多模态理解和推理(MMMU)基准测试是一个综合性的数据集,能够评估多模态人工智能模型在需要特定学科知识和深思熟虑推理的大学水平任务上的表现。

  MMMU 由来自大学考试、测验和教科书的 1.15 万个精心策划的多模态问题组成,涵盖了六个核心学科的 30 个主题和 183 个子领域。

  MMMU 中的每个问题都是一个多模态的图文配对,有 4 个多项选择选项,包括图表、图解、地图和化学结构等 30 种不同的图像类型。

  该基准已经成为了多模态领域的标准评估工具,许多著名多模态模型在发布时都会使用 MMMU 来评估能力。

  但与此同时,MMMU 社区也有许多负面反馈,研究人员总结为两个问题:

  1. 文本依赖性:某些问题相对独立或与相应的图像无关,即无需输入图像,仅靠问题文本就能回答;

  2. 利用捷径:即使问题需要图像才能正确回答,但模型通常也能找到候选选项中的捷径或相关性,根据预训练中获得的先验知识来得出正确答案。

  所以 MMMU-Pro 在构建的时候,更加细致地考虑问题与图像之间的关联性,以及智能体是否真正理解了问题的本质,而不仅仅依赖于文本信息或选项中的模式识别。

  构建方法

  为了缓解这些问题并构建一个更健壮的基准测试,研究人员设计了一个三步方法:

  1. 筛选问题

  删除仅通过文本的大型语言模型(LLMs)就能回答的问题。

  研究人员选择了四个强大的开源 LLMs:Llama3-70B-Instruct、Qwen2-72B-Instruct、Yi-1.5-34B-Chat 和 Mixtral-8×22BInstruct(gpt-4o),并要求模型在没有图像的情况下回答 MMMU 问题;即使模型表明需要视觉输入,也要求模型提供答案。

  对每个模型重复上述过程十次,如果某个模型能够正确回答一个问题超过五次,就可以认为这个问题是「纯文本可回答的」,排除掉三个模型都可回答的问题。

  然后从剩余的问题池中,在 30 个主题下,每个主题随机抽取 60 个问题,总计 1800 个问题。

  2. 增加候选选项

  为了防止模型根据问题和候选项之间的关联来回答问题,研究人员将问题的候选项从四个增加到十个,使模型更难蒙对。

  在增加选项的过程中,专家还会对原始的标注问题进行审查,以确保问题与图像的相关性,并排除了缺乏明确联系或连贯性的问题,筛选出了 70 个问题。

  3. 通过仅视觉输入设置增强评估

  为了进一步挑战模型的多模态理解,研究人员在 MMMU-Pro 中引入了纯视觉输入设置,将问题嵌入到屏幕截图或照片中。

  人类标注人员需要在模拟显示环境中手动捕获照片和屏幕截图,图片涉及不同的背景、字体样式和字体大小,可以覆盖现实世界条件的多样性。

  最终总共获得了 3460 个问题,其中 1730 个样本是标准格式 ,另外 1730 个是屏幕截图或照片形式。

  实验结果

  实验设置

  研究人员用到的基线模型包括:

  1. 闭源模型(Proprietary Models):GPT-4o(0513)和 GPT-4o mini,Claude 3.5 Sonnet,以及 Gemini 1.5 Pro(0801 和 0523 版本),代表了多模态模型能力的最前沿。

  2. 开源模型:InternVL2(8B、40B 和 Llama3-76B 版本)、LLaVA(OneVision-7B、OneVision-72B 和各种 NeXT 版本)、VILA-1.5-40B、MiniCPM-V2.6、Phi-3.5-Vision 和 Idefics3-8B-Llama3

  研究人员在三种不同的测试环境下对模型进行评估:(1)4 个选项的标准设置、10 个选项下的性能和(3)纯视觉输入,其中(2)和(3)的平均分作为 MMMU-Pro 的总体性能得分。

  总体结果

  增加候选选项的影响

  从 4 个候选选项增加到 10 个(∆1)对所有模型的性能都有明显的下降,GPT-4o(0513)的准确率下降了 10.7%,从 64.7% 降至 54.0%,表明增加选项数量可以有效降低了模型猜测正确答案的可能性,迫使模型更深入地理解和处理多模态内容。

  纯视觉设置的影响

  GPT-4o(0513)在纯视觉设置中的准确率又下降了 4.3%,而 LLaVA-OneVision-72B 的准确率大幅下降了 14.0%,表明纯视觉设置确实能考验出模型整合视觉和文本信息的能力。

  对 MMMU-Pro 的综合影响

  总体的性能差异∆3 代表 MMMU-Pro 与 MMMU(验证集)之间的差异,可以看到 Gemini 1.5 Pro(0801)和 Claude 3.5 Sonnet 模型分别出现了 18.9% 和 16.8% 的下降,而 VILA-1.5-40B 等模型的下降的更多,达到了 26.9%。

  全面的准确率显著降低表明,MMMU-Pro 成功地降低了模型在原始基准测试中可能利用的捷径和猜测策略。

  OCR 在视觉设置中有帮助吗

  研究人员探讨了光学字符识别(OCR)提示是否有助于提高 MMMU-Pro 仅视觉输入设置中的性能。

  OCR 提示明确要求模型写出图像中的问题文本,不过,在评估的模型中,包含 OCR 提示并没有显著改变性能。

  微小的性能差异表明,现有的模型已经能够从图像中提取和理解文本信息,即使没有明确的 OCR 提示也是如此。

  当文本嵌入在图像中时,虽然显著增加了视觉输入的整体复杂性,但简单的 OCR 不足以解决 MMMU-Pro 仅视觉输入设置所提出的问题,模型不仅要识别和提取文本,还要理解其在图像中的上下文、与视觉元素的关系以及与当前问题的相关性。

  CoT 有助于回答 MMMU-Pro 问题吗?

  在 MMMU-Pro 基准测试中,研究人员估了思维链(Chain of Thought,简称 CoT)提示在提升智能体性能方面的有效性,包括标准设置和视觉输入设置。

  结果显示,在这两种设置下,引入 CoT 提示都能够带来性能的提升,但不同智能体的性能提升幅度存在显著差异。

  例如,Claude 3.5 Sonnet 在标准设置中表现出显著的性能提升,准确率从 42.7% 提高到 55.0%,相比之下,LLaVA-OneVision-72B 只有很小的性能提升。

  值得注意的是,一些智能体,比如 VILA1.5-40B,在引入 CoT 提示后性能反而出现了下降,可能与模型在遵循指令方面的能力有关。如果模型无法准确地遵循指令,生成 CoT 解释就会变得更加困难。

  此外,有些模型无法保持正确的回复格式,即存在所谓的「简化回复格式」问题。

  参考资料:

  https://arxiv.org/abs/2409.02813