计算机科学 > 人工智能
[提交于 2025年6月28日
]
标题: MARBLE:多模态空间推理与规划的硬基准
标题: MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning
摘要: 处理来自多种模态的信息并逐步推理仍然是推动人工智能发展的关键挑战。 然而,现有的推理基准主要关注纯文本推理,或者使用可以通过直接从非文本模态中检索信息来回答的多模态问题。 因此,多模态领域中的复杂推理仍然理解不足。 在这里,我们提出了MARBLE,这是一个具有挑战性的多模态推理基准,旨在严格检验多模态语言模型(MLLMs)在通过复杂多模态问题和环境进行仔细逐步推理方面的能力。 MARBLE由两个高度具有挑战性的任务组成,即M-Portal和M-Cube,这些任务要求在空间、视觉和物理约束下制定和理解多步骤计划。 我们发现当前的MLLMs在MARBLE上的表现较差——所有12个先进模型在M-Portal上的表现接近随机,在M-Cube上的准确率为0%。 只有在简化的子任务中,一些模型才能超过随机基线,这表明复杂推理对于现有的MLLMs来说仍然是一个挑战。 此外,我们表明感知仍然是一个瓶颈,其中MLLMs偶尔无法从视觉输入中提取信息。 通过揭示MLLMs的局限性,我们希望MARBLE能推动下一代模型的发展,这些模型能够跨多个多模态推理步骤进行推理和规划。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.