计算机科学 > 软件工程
[提交于 2025年7月31日
]
标题: Trae代理:一种基于大语言模型的软件工程代理,具有测试时缩放功能
标题: Trae Agent: An LLM-based Agent for Software Engineering with Test-time Scaling
摘要: 软件问题解决是软件工程中的一个关键挑战,近年来引起了越来越多的关注。随着大型语言模型(LLMs)的快速发展,已经在解决现实世界的软件工程任务方面取得了显著进展。最近的研究引入了集成推理技术,以提高基于LLM的问题解决性能。然而,现有的基于提示的方法在有效探索大型集成空间方面仍然存在局限,并且缺乏仓库级别的理解能力,这两方面都限制了它们的整体效果。在本文中,我们提出了Trae Agent,这是第一个基于代理的集成推理方法,用于仓库级别的问题解决。Trae Agent将我们的目标表述为一个最优解搜索问题,并通过生成、剪枝和选择的模块化代理来解决两个关键挑战,即大型集成空间和仓库级别理解。我们在广泛采用的SWE-bench基准上使用三种领先的LLM进行了广泛的实验,将Trae Agent与四种最先进的集成推理技术进行比较。实验结果表明,Trae Agent在Pass@1指标上相对于所有基线平均提高了10.22%,表现优异。Trae Agent在SWE-bench Verified排行榜上获得了第一名,具有显著的Pass@1得分为75.20%。我们很高兴将Trae Agent作为开源项目发布,以支持研究社区,所有资源均可在https://github.com/bytedance/trae-agent获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.