计算机科学 > 软件工程
[提交于 2025年7月24日
]
标题: NoCode-bench:一种用于评估自然语言驱动功能添加的基准
标题: NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition
摘要: 自然语言驱动的无代码开发允许用户使用自然语言(NL)而不是编辑源代码来指定软件功能,有望提高生产效率和实现开发的民主化。 大型语言模型(LLMs)在实现这一范式方面显示出潜力。 在此背景下,软件文档充当功能的NL规范。 这项工作引入了NoCode-bench,这是一个设计用于评估LLMs在现实世界中自然语言驱动的功能添加任务的基准,包含10个项目中的634个任务和114k个代码更改。 每个任务将文档更新与相应的代码实现配对,并通过开发者编写的测试用例进行验证。 其中一部分114个高质量、人工验证的实例,称为NoCode-bench Verified,确保了可靠的评估。 我们的实验表明,尽管使用了大量的标记,最好的LLMs的任务成功率仅为15.79%,突显了跨文件编辑、代码库理解和工具调用方面的挑战。 这些发现表明,LLMs尚未准备好用于完全的自然语言驱动的无代码开发。 NoCode-bench为该领域未来的进步奠定了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.