计算机科学 > 软件工程
[提交于 2025年7月22日
]
标题: 通过层感知模型编辑提高代码LLM对提示扰动的鲁棒性
标题: Improving Code LLM Robustness to Prompt Perturbations via Layer-Aware Model Editing
摘要: 大型语言模型(LLMs)在代码生成方面表现出色,其中自然语言提示在向模型传达用户意图方面起着关键作用。 然而,先前的研究表明,LLMs对提示扰动非常敏感。措辞、语法或格式的微小修改可能会显著降低生成代码的功能正确性。 由于扰动在现实场景中经常发生,提高LLMs对提示扰动的鲁棒性对于确保实际代码生成中的可靠性能至关重要。 在本文中,我们引入了CREME(通过模型编辑增强代码鲁棒性),这是一种通过有针对性的参数更新来增强LLMs鲁棒性的新方法。 CREME首先通过比较原始提示与其扰动变体之间的隐藏状态来识别鲁棒性敏感层。 然后,它在识别出的层上进行轻量级参数编辑,以减少性能下降。 我们在两个广泛使用的代码生成基准(HumanEval和MBPP)及其扰动版本上评估了CREME。 实验结果表明,CREME在扰动提示上的Pass@1准确率提高了63%,同时在干净输入上保持稳定性能,准确率偏差在1%以内。 进一步分析表明,鲁棒性敏感层主要集中在网络的中间和深层,且它们的位置在不同的模型架构中有所不同。 这些见解为开发未来的面向鲁棒性的编辑策略提供了有价值的基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.