计算机科学 > 软件工程
[提交于 2025年7月20日
]
标题: 博士 Boot:自举程序合成语言模型以执行修复
标题: Dr. Boot: Bootstrapping Program Synthesis Language Models to Perform Repairing
摘要: 用于程序合成的语言模型通常在编程竞赛数据集(MBPP、APPS)上进行训练和评估。 然而,这些数据集在规模和质量上存在限制,而这些语言模型对数据的需求却非常大。 此外,与人类相比,语言模型的程序合成过程存在偏差。 虽然人类在编译器的帮助下逐步开发代码,但目前大多数程序合成模型一次性生成代码。 为了解决这些问题,我们引入了一种用于程序合成的自举算法,该算法支持教模型如何修复代码。 我们证明了自举方法始终优于常规微调。 与其他工作相比,我们的自举模型的表现与比它大68%的微调模型相当。 值得注意的是,在推理过程中,带有修复的自举方法相比常规自举方法,也提高了非修复性能。 然而,在我们的模型上,推理过程中的修复可能不如直接采样相同数量的解决方案。 此外,我们发现APPS数据集训练部分中的示例测试用例存在问题,这对社区是有价值的,因为许多修复和强化学习方法都依赖于它们。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.