计算机科学 > 软件工程
[提交于 2025年7月11日
]
标题: SetupBench:评估软件工程代理启动开发环境的能力
标题: SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments
摘要: 现代大型语言模型(LLM)代理承诺为现实世界的软件任务提供端到端的帮助,但现有的基准测试几乎只在预设环境中评估LLM代理,其中每个依赖项都已预先安装。为了填补这一空白,我们引入了SetupBench,这是一个包含93个实例的基准测试,它隔离了环境启动技能:从一个干净的Linux沙箱开始,代理必须安装包、解决依赖冲突、初始化数据库并配置后台服务。我们的任务涵盖了七个语言生态系统、五个数据库引擎和多服务编排场景,每个任务都配有自然语言问题陈述和确定性成功命令。通过评估OpenHands,一个最先进的编码代理,我们发现各个任务类别中的成功率较低,特别是在仓库设置(38.9-57.4%)和本地数据库配置(20.0-53.3%)方面存在特别大的挑战。我们的分析揭示了系统性的失败模式,包括不完整的开发工具安装、幻觉任务约束以及非持久性环境修改,这些都会破坏代理与人类协作的工作流程。我们发现代理探索策略中存在显著的低效率,与最佳人类行为相比,38-89%的操作是不必要的。这些发现突显了当前代理在实际环境启动能力方面的差距。通过针对这一关键但评估不足的能力,SetupBench为下一代旨在解决端到端现实任务的软件开发代理提供了一个严格的衡量标准。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.