计算机科学 > 人工智能
[提交于 2025年7月17日
]
标题: 公式一:超越竞赛编程的算法推理深度测量
标题: FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming
摘要: 前沿AI模型展示了强大的知识广度。 但它们距离真正的专家级——或超人类——专业知识还有多远? 真正的专家可以解决最困难的问题,并推动科学理解的边界。 为了阐明前沿模型能力的局限性,我们远离了人为的编程竞赛难题,而是专注于现实生活中的研究问题。 我们构建了FormulaOne,这是一个位于图论、逻辑和算法交叉点的基准测试,这完全在前沿模型的训练分布范围内。 我们的问题非常具有挑战性,需要一系列推理步骤。 该数据集有三个关键特性。 首先,它具有商业价值,与实际的大规模优化问题相关,例如路由、调度和网络设计中出现的问题。 其次,它是从图上的单态二阶(MSO)逻辑的高度表达性框架生成的,为大规模自动问题生成铺平了道路;这对于构建强化学习环境非常理想。 第三,我们许多问题与理论计算机科学的前沿密切相关,并与其中的核心猜想有关,例如强指数时间假设(SETH)。 因此,任何在我们数据集上超越已知结果的重大算法进展都可能具有深远的理论意义。 值得注意的是,最先进的模型如OpenAI的o3在FormulaOne上完全失败,即使给予10次尝试和解释性的少量示例,也只能解决不到1%的问题——这突显了在某些领域它们仍距离专家级理解相距甚远。 为了支持进一步的研究,我们还整理了FormulaOne-Warmup,提供了一组来自相同分布的简单任务。 我们发布了完整的语料库以及一个全面的评估框架。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.