计算机科学 > 软件工程
[提交于 2025年7月15日
]
标题: MetaLint:通过遵循指令和易于到难的泛化进行可泛化的惯用代码质量分析
标题: MetaLint: Generalizable Idiomatic Code Quality Analysis through Instruction-Following and Easy-to-Hard Generalization
摘要: 大型语言模型尽管在代码生成方面取得成功,但在代码质量分析方面存在困难,因为它们受限于静态训练数据,难以适应不断变化的最佳实践。我们引入了MetaLint,这是一种新的遵循指令的框架,将代码质量分析建模为基于高层规范检测和修复有问题的语义代码片段或代码习惯的任务。与传统方法在静态、基于规则的数据上训练模型不同,MetaLint在合成的linter生成数据上进行指令微调,以支持从易到难的泛化,使模型能够在不重新训练的情况下适应新或复杂的代码模式。为了评估这一点,我们构建了一个受现实世界编码标准(如Python增强提案PEPs)启发的具有挑战性的习惯基准,并评估MetaLint训练的模型是否能自适应推理或只是记忆。我们的结果表明,MetaLint提高了对未见过的PEP习惯的泛化能力,在习惯检测中达到了70.37%的F分数,所有评估模型中召回率最高(70.43%)。它在定位任务中也达到了26.73%,对于其4B参数规模来说具有竞争力,并且与更大的最先进的模型如o3-mini相当,突显了其在未来代码质量分析中的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.