Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.00699

帮助 | 高级搜索

计算机科学 > 软件工程

arXiv:2507.00699 (cs)
[提交于 2025年7月1日 ]

标题: 基于多轮反馈的细粒度代码指令遵循的分层可扩展基准

标题: A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback

Authors:Guoliang Duan, Mingwei Liu, Yanlin Wang, Chong Wang, Xin Peng, Zibin Zheng
摘要: 大型语言模型(LLMs)在代码生成方面取得了显著进展,但它们在遵循具有分层和多样化约束的复杂编程指令方面的能力仍缺乏深入研究。 现有的基准测试通常优先考虑功能正确性,忽视了实际开发中复杂的细微要求。 我们引入了MultiCodeIF,这是一个全面的基准测试,旨在从多个维度评估代码生成中的指令遵循能力:约束类型、层级水平和迭代优化。 基于一个包含9个类别和27种约束类型的结构化分类法, MultiCodeIF能够对功能性和非功能性指令遵循进行细致评估。 使用自动化流程ConstraGen,我们合成并演化了来自14种编程语言的2,021个代码任务,通过反馈驱动的任务变体支持多轮评估。 对六种最先进的LLM进行的实证评估揭示了显著的性能差异。 表现最好的模型Claude-3-7-Sonnet在平均约束满足度上达到63.0%,而较小的模型如Qwen3-1.7B则降至 44.8%。 模型在显式约束上表现良好,但在隐式或抽象约束上遇到困难。 具有多个层级约束的任务显著降低了模型的成功率,从单层情况下的54.5%下降到多层情况下的仅 18.8%。 然而,结构化的反馈可以实现逐步改进:平均约束满足度在四轮迭代优化中从63.0%提升至 83.4%。 MultiCodeIF提供了一个可扩展、约束感知且反馈敏感的框架,在现实代码生成场景下对LLM进行基准测试,弥合了合成评估与真实世界指令复杂性之间的差距。 完整的基准数据集、评估流程和源代码可在https://github.com/SYSUSELab/MultiCodeIF获取。
摘要: Large language models (LLMs) have advanced significantly in code generation, yet their ability to follow complex programming instructions with layered and diverse constraints remains underexplored. Existing benchmarks often prioritize functional correctness, overlooking the nuanced requirements found in real-world development. We introduce MultiCodeIF, a comprehensive benchmark designed to evaluate instruction-following in code generation across multiple dimensions: constraint type, hierarchical levels, and iterative refinement. Built upon a structured taxonomy of 9 categories and 27 constraint types, MultiCodeIF enables granular assessment of both functional and non-functional instruction adherence. Using an automated pipeline, ConstraGen, we synthesize and evolve 2,021 code tasks sourced from 14 programming languages, supporting multi-turn evaluation through feedback-driven task variants. Empirical evaluation of six state-of-the-art LLMs uncovers substantial performance disparities. The top-performing model, Claude-3-7-Sonnet, achieves 63.0% average constraint satisfaction, while smaller models like Qwen3-1.7B fall to 44.8%. Models perform well on explicit constraints, but struggle with implicit or abstract constraints. Tasks with multiple hierarchical constraints significantly reduce model success rates, from 54.5% in single-level to just 18.8% in multi-level scenarios. However, structured feedback enables progressive improvement: average constraint satisfaction rises from 63.0% to 83.4% over four iterative refinement rounds. MultiCodeIF provides a scalable, constraint-aware, and feedback-sensitive framework to benchmark LLMs under realistic code generation scenarios, bridging the gap between synthetic evaluations and real-world instruction complexity. The full benchmark dataset, evaluation pipeline, and source code are available at https://github.com/SYSUSELab/MultiCodeIF.
主题: 软件工程 (cs.SE)
引用方式: arXiv:2507.00699 [cs.SE]
  (或者 arXiv:2507.00699v1 [cs.SE] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00699
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Guoliang Duan [查看电子邮件]
[v1] 星期二, 2025 年 7 月 1 日 11:51:40 UTC (3,412 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.SE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号