Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.11687

帮助 | 高级搜索

计算机科学 > 软件工程

arXiv:2507.11687 (cs)
[提交于 2025年7月15日 ]

标题: MetaLint:通过遵循指令和易于到难的泛化进行可泛化的惯用代码质量分析

标题: MetaLint: Generalizable Idiomatic Code Quality Analysis through Instruction-Following and Easy-to-Hard Generalization

Authors:Atharva Naik, Lawanya Baghel, Dhakshin Govindarajan, Darsh Agrawal, Daniel Fried, Carolyn Rose
摘要: 大型语言模型尽管在代码生成方面取得成功,但在代码质量分析方面存在困难,因为它们受限于静态训练数据,难以适应不断变化的最佳实践。我们引入了MetaLint,这是一种新的遵循指令的框架,将代码质量分析建模为基于高层规范检测和修复有问题的语义代码片段或代码习惯的任务。与传统方法在静态、基于规则的数据上训练模型不同,MetaLint在合成的linter生成数据上进行指令微调,以支持从易到难的泛化,使模型能够在不重新训练的情况下适应新或复杂的代码模式。为了评估这一点,我们构建了一个受现实世界编码标准(如Python增强提案PEPs)启发的具有挑战性的习惯基准,并评估MetaLint训练的模型是否能自适应推理或只是记忆。我们的结果表明,MetaLint提高了对未见过的PEP习惯的泛化能力,在习惯检测中达到了70.37%的F分数,所有评估模型中召回率最高(70.43%)。它在定位任务中也达到了26.73%,对于其4B参数规模来说具有竞争力,并且与更大的最先进的模型如o3-mini相当,突显了其在未来代码质量分析中的潜力。
摘要: Large Language Models, though successful in code generation, struggle with code quality analysis because they are limited by static training data and can't easily adapt to evolving best practices. We introduce MetaLint, a new instruction-following framework that formulates code quality analysis as the task of detecting and fixing problematic semantic code fragments or code idioms based on high-level specifications. Unlike conventional approaches that train models on static, rule-based data, MetaLint employs instruction tuning on synthetic linter-generated data to support easy-to-hard generalization, enabling models to adapt to novel or complex code patterns without retraining. To evaluate this, we construct a benchmark of challenging idioms inspired by real-world coding standards such as Python Enhancement Proposals (PEPs) and assess whether MetaLint-trained models reason adaptively or simply memorize. Our results show that MetaLint improves generalization to unseen PEP idioms, achieving a 70.37% F-score on idiom detection with the highest recall (70.43%) among all evaluated models. It also achieves 26.73% on localization, competitive for its 4B parameter size and comparable to larger state-of-the-art models like o3-mini, highlighting its potential for future-proof code quality analysis.
主题: 软件工程 (cs.SE) ; 计算与语言 (cs.CL); 机器学习 (cs.LG)
引用方式: arXiv:2507.11687 [cs.SE]
  (或者 arXiv:2507.11687v1 [cs.SE] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.11687
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Atharva Naik [查看电子邮件]
[v1] 星期二, 2025 年 7 月 15 日 19:44:20 UTC (1,610 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.SE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CL
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号