Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.18130

帮助 | 高级搜索

计算机科学 > 软件工程

arXiv:2507.18130 (cs)
[提交于 2025年7月24日 ]

标题: NoCode-bench:一种用于评估自然语言驱动功能添加的基准

标题: NoCode-bench: A Benchmark for Evaluating Natural Language-Driven Feature Addition

Authors:Le Deng, Zhonghao Jiang, Jialun Cao, Michael Pradel, Zhongxin Liu
摘要: 自然语言驱动的无代码开发允许用户使用自然语言(NL)而不是编辑源代码来指定软件功能,有望提高生产效率和实现开发的民主化。 大型语言模型(LLMs)在实现这一范式方面显示出潜力。 在此背景下,软件文档充当功能的NL规范。 这项工作引入了NoCode-bench,这是一个设计用于评估LLMs在现实世界中自然语言驱动的功能添加任务的基准,包含10个项目中的634个任务和114k个代码更改。 每个任务将文档更新与相应的代码实现配对,并通过开发者编写的测试用例进行验证。 其中一部分114个高质量、人工验证的实例,称为NoCode-bench Verified,确保了可靠的评估。 我们的实验表明,尽管使用了大量的标记,最好的LLMs的任务成功率仅为15.79%,突显了跨文件编辑、代码库理解和工具调用方面的挑战。 这些发现表明,LLMs尚未准备好用于完全的自然语言驱动的无代码开发。 NoCode-bench为该领域未来的进步奠定了基础。
摘要: Natural language-driven no-code development allows users to specify software functionality using natural language (NL) instead of editing source code, promising increased productivity and democratized development. Large language models (LLMs) show potential in enabling this paradigm. In this context, software documentation acts as an NL specification for functionality. This work introduces NoCode-bench, a benchmark designed to evaluate LLMs on real-world NL-driven feature addition tasks, consisting of 634 tasks across 10 projects and 114k code changes. Each task pairs documentation updates with corresponding code implementations, validated by developer-written test cases. A subset of 114 high-quality, human-verified instances, NoCode-bench Verified, ensures reliable evaluation. Our experiments reveal that, despite high token usage, the best LLMs achieve a task success rate of only 15.79%, highlighting challenges in cross-file editing, codebase understanding, and tool calling. These findings indicate that LLMs are not yet ready for fully NL-driven no-code development. NoCode-bench lays the foundation for future advances in this area.
主题: 软件工程 (cs.SE)
引用方式: arXiv:2507.18130 [cs.SE]
  (或者 arXiv:2507.18130v1 [cs.SE] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.18130
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Le Deng [查看电子邮件]
[v1] 星期四, 2025 年 7 月 24 日 06:38:19 UTC (1,000 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.SE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号