Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.24876

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2505.24876 (cs)
[提交于 2025年5月30日 ]

标题: Agent-X:评估以视觉为中心的能动任务中的深度多模态推理

标题: Agent-X: Evaluating Deep Multimodal Reasoning in Vision-Centric Agentic Tasks

Authors:Tajamul Ashraf, Amal Saqib, Hanan Ghani, Muhra AlMahri, Yuhao Li, Noor Ahsan, Umair Nawaz, Jean Lahoud, Hisham Cholakkal, Mubarak Shah, Philip Torr, Fahad Shahbaz Khan, Rao Muhammad Anwer, Salman Khan
摘要: 深度推理对于解决复杂任务至关重要,尤其是在需要顺序和多模态理解的以视觉为中心的情景中。 然而,现有的基准通常使用完全合成的单轮查询、有限的视觉模态来评估代理,并且缺乏一个框架来评估在实际环境中所需的多步骤推理质量。 为了解决这个问题,我们引入了Agent-X,这是一个大规模基准,用于评估在现实世界、多模态设置下以视觉为中心的代理的多步和深度推理能力。 Agent-X包含828个具有真实视觉上下文的代理任务,包括图像、多图像比较、视频和说明性文本。 这些任务涵盖了六个主要的代理环境:通用视觉推理、网页浏览、安全与监控、自动驾驶、运动以及数学推理。 我们的基准要求代理在这些多样化的环境中结合工具使用与明确的逐步决策。 此外,我们提出了一种细粒度的、按步骤的评估框架,该框架评估每个推理步骤的正确性和逻辑连贯性,以及在整个任务中工具使用的有效性。 我们的结果显示,即使是表现最好的模型,包括GPT、Gemini和Qwen家族,也难以解决多步视觉任务,在整个链条上的成功率低于50%。 这些发现突显了当前大型语言模型在推理和工具使用方面的主要瓶颈,并确定了未来研究方向,特别是在以视觉为中心的代理推理模型方面。 我们的数据和代码可在https://github.com/mbzuai-oryx/Agent-X公开获取。
摘要: Deep reasoning is fundamental for solving complex tasks, especially in vision-centric scenarios that demand sequential, multimodal understanding. However, existing benchmarks typically evaluate agents with fully synthetic, single-turn queries, limited visual modalities, and lack a framework to assess reasoning quality over multiple steps as required in real-world settings. To address this, we introduce Agent-X, a large-scale benchmark for evaluating vision-centric agents multi-step and deep reasoning capabilities in real-world, multimodal settings. Agent- X features 828 agentic tasks with authentic visual contexts, including images, multi-image comparisons, videos, and instructional text. These tasks span six major agentic environments: general visual reasoning, web browsing, security and surveillance, autonomous driving, sports, and math reasoning. Our benchmark requires agents to integrate tool use with explicit, stepwise decision-making in these diverse settings. In addition, we propose a fine-grained, step-level evaluation framework that assesses the correctness and logical coherence of each reasoning step and the effectiveness of tool usage throughout the task. Our results reveal that even the best-performing models, including GPT, Gemini, and Qwen families, struggle to solve multi-step vision tasks, achieving less than 50% full-chain success. These findings highlight key bottlenecks in current LMM reasoning and tool-use capabilities and identify future research directions in vision-centric agentic reasoning models. Our data and code are publicly available at https://github.com/mbzuai-oryx/Agent-X
主题: 计算机视觉与模式识别 (cs.CV) ; 计算与语言 (cs.CL)
引用方式: arXiv:2505.24876 [cs.CV]
  (或者 arXiv:2505.24876v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.24876
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tajamul Ashraf [查看电子邮件]
[v1] 星期五, 2025 年 5 月 30 日 17:59:53 UTC (5,859 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号