Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.13337

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2507.13337 (cs)
[提交于 2025年7月17日 ]

标题: 公式一:超越竞赛编程的算法推理深度测量

标题: FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming

Authors:Gal Beniamini, Yuval Dor, Alon Vinnikov, Shir Granot Peled, Or Weinstein, Or Sharir, Noam Wies, Tomer Nussbaum, Ido Ben Shaul, Tomer Zekharya, Yoav Levine, Shai Shalev-Shwartz, Amnon Shashua
摘要: 前沿AI模型展示了强大的知识广度。 但它们距离真正的专家级——或超人类——专业知识还有多远? 真正的专家可以解决最困难的问题,并推动科学理解的边界。 为了阐明前沿模型能力的局限性,我们远离了人为的编程竞赛难题,而是专注于现实生活中的研究问题。 我们构建了FormulaOne,这是一个位于图论、逻辑和算法交叉点的基准测试,这完全在前沿模型的训练分布范围内。 我们的问题非常具有挑战性,需要一系列推理步骤。 该数据集有三个关键特性。 首先,它具有商业价值,与实际的大规模优化问题相关,例如路由、调度和网络设计中出现的问题。 其次,它是从图上的单态二阶(MSO)逻辑的高度表达性框架生成的,为大规模自动问题生成铺平了道路;这对于构建强化学习环境非常理想。 第三,我们许多问题与理论计算机科学的前沿密切相关,并与其中的核心猜想有关,例如强指数时间假设(SETH)。 因此,任何在我们数据集上超越已知结果的重大算法进展都可能具有深远的理论意义。 值得注意的是,最先进的模型如OpenAI的o3在FormulaOne上完全失败,即使给予10次尝试和解释性的少量示例,也只能解决不到1%的问题——这突显了在某些领域它们仍距离专家级理解相距甚远。 为了支持进一步的研究,我们还整理了FormulaOne-Warmup,提供了一组来自相同分布的简单任务。 我们发布了完整的语料库以及一个全面的评估框架。
摘要: Frontier AI models demonstrate formidable breadth of knowledge. But how close are they to true human -- or superhuman -- expertise? Genuine experts can tackle the hardest problems and push the boundaries of scientific understanding. To illuminate the limits of frontier model capabilities, we turn away from contrived competitive programming puzzles, and instead focus on real-life research problems. We construct FormulaOne, a benchmark that lies at the intersection of graph theory, logic, and algorithms, all well within the training distribution of frontier models. Our problems are incredibly demanding, requiring an array of reasoning steps. The dataset has three key properties. First, it is of commercial interest and relates to practical large-scale optimisation problems, such as those arising in routing, scheduling, and network design. Second, it is generated from the highly expressive framework of Monadic Second-Order (MSO) logic on graphs, paving the way toward automatic problem generation at scale; ideal for building RL environments. Third, many of our problems are intimately related to the frontier of theoretical computer science, and to central conjectures therein, such as the Strong Exponential Time Hypothesis (SETH). As such, any significant algorithmic progress on our dataset, beyond known results, could carry profound theoretical implications. Remarkably, state-of-the-art models like OpenAI's o3 fail entirely on FormulaOne, solving less than 1% of the questions, even when given 10 attempts and explanatory fewshot examples -- highlighting how far they remain from expert-level understanding in some domains. To support further research, we additionally curate FormulaOne-Warmup, offering a set of simpler tasks, from the same distribution. We release the full corpus along with a comprehensive evaluation framework.
主题: 人工智能 (cs.AI) ; 计算复杂性 (cs.CC); 逻辑 (math.LO)
引用方式: arXiv:2507.13337 [cs.AI]
  (或者 arXiv:2507.13337v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.13337
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Gal Beniamini [查看电子邮件]
[v1] 星期四, 2025 年 7 月 17 日 17:53:55 UTC (387 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CC
math
math.LO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号