计算机科学 > 软件工程
[提交于 2025年7月19日
]
标题: AlgoTune:语言模型可以加速通用数值程序吗?
标题: AlgoTune: Can Language Models Speed Up General-Purpose Numerical Programs?
摘要: 尽管语言模型(LM)的能力有所进步,但评估迄今为止主要集中在模型在人类已经解决的任务上的表现,包括编程(Jimenez等,2024年)和数学(Glazer等,2024年)。因此,我们提出测试模型在开放性基准中设计和实现算法的能力:我们让LM编写高效解决计算机科学、物理和数学中计算挑战性问题的代码。我们的AlgoTune基准包含从领域专家那里收集的155个编码任务,以及一个用于验证和计时LM合成解决方案代码的框架,该框架与流行开源包中的参考实现进行比较。此外,我们开发了一个基线LM代理AlgoTuner,并在一系列前沿模型上评估了其性能。AlgoTuner相对于我们的参考求解器平均提升了1.72倍,这些求解器使用了如SciPy、sk-learn和CVXPY之类的库。然而,我们发现当前模型无法发现算法创新,而是更倾向于表面优化。我们希望AlgoTune能推动LM代理的发展,使其表现出超越最先进人类表现的创造性解决问题能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.