计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月30日
]
标题: Agent-X:评估以视觉为中心的能动任务中的深度多模态推理
标题: Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks
摘要: 深度推理对于解决复杂任务至关重要,尤其是在需要顺序和多模态理解的以视觉为中心的情景中。 然而,现有的基准通常使用完全合成的单轮查询、有限的视觉模态来评估代理,并且缺乏一个框架来评估在实际环境中所需的多步骤推理质量。 为了解决这个问题,我们引入了Agent-X,这是一个大规模基准,用于评估在现实世界、多模态设置下以视觉为中心的代理的多步和深度推理能力。 Agent-X包含828个具有真实视觉上下文的代理任务,包括图像、多图像比较、视频和说明性文本。 这些任务涵盖了六个主要的代理环境:通用视觉推理、网页浏览、安全与监控、自动驾驶、运动以及数学推理。 我们的基准要求代理在这些多样化的环境中结合工具使用与明确的逐步决策。 此外,我们提出了一种细粒度的、按步骤的评估框架,该框架评估每个推理步骤的正确性和逻辑连贯性,以及在整个任务中工具使用的有效性。 我们的结果显示,即使是表现最好的模型,包括GPT、Gemini和Qwen家族,也难以解决多步视觉任务,在整个链条上的成功率低于50%。 这些发现突显了当前大型语言模型在推理和工具使用方面的主要瓶颈,并确定了未来研究方向,特别是在以视觉为中心的代理推理模型方面。 我们的数据和代码可在https://github.com/mbzuai-oryx/Agent-X公开获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.