计算机科学 > 软件工程
[提交于 2025年7月14日
]
标题: 扭转局势:基于仓库的代码反射
标题: Turning the Tide: Repository-based Code Reflection
摘要: 代码大型语言模型(LLMs)通过理解并跨语言生成代码来增强编程,通过反思提供智能反馈、错误检测和代码更新,提高开发效率和可访问性。 尽管基准测试(例如 HumanEval/LiveCodeBench)评估代码生成和现实相关性,但之前的工作忽略了在代码库中修改代码的场景。 考虑到在提升反思能力以及在动态基准中避免数据污染方面的挑战,我们引入了LiveRepoReflection,这是一个具有挑战性的基准测试,用于评估多文件代码库环境中的代码理解和生成,包含跨越$6$种编程语言的1,888个经过严格筛选的测试用例,以确保多样性、正确性和高难度。 此外,我们创建了 RepoReflection-Instruct,一个大规模、质量筛选过的指令微调数据集,来源于多种来源,用于通过涉及代码生成和错误驱动修复的两轮对话过程训练RepoReflectionCoder。 排行榜评估了超过40个LLMs,以反映基于代码库的代码反思模型性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.