计算机科学 > 软件工程
[提交于 2025年7月1日
]
标题: 基于多轮反馈的细粒度代码指令遵循的分层可扩展基准
标题: A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback
摘要: 大型语言模型(LLMs)在代码生成方面取得了显著进展,但它们在遵循具有分层和多样化约束的复杂编程指令方面的能力仍缺乏深入研究。 现有的基准测试通常优先考虑功能正确性,忽视了实际开发中复杂的细微要求。 我们引入了MultiCodeIF,这是一个全面的基准测试,旨在从多个维度评估代码生成中的指令遵循能力:约束类型、层级水平和迭代优化。 基于一个包含9个类别和27种约束类型的结构化分类法, MultiCodeIF能够对功能性和非功能性指令遵循进行细致评估。 使用自动化流程ConstraGen,我们合成并演化了来自14种编程语言的2,021个代码任务,通过反馈驱动的任务变体支持多轮评估。 对六种最先进的LLM进行的实证评估揭示了显著的性能差异。 表现最好的模型Claude-3-7-Sonnet在平均约束满足度上达到63.0%,而较小的模型如Qwen3-1.7B则降至 44.8%。 模型在显式约束上表现良好,但在隐式或抽象约束上遇到困难。 具有多个层级约束的任务显著降低了模型的成功率,从单层情况下的54.5%下降到多层情况下的仅 18.8%。 然而,结构化的反馈可以实现逐步改进:平均约束满足度在四轮迭代优化中从63.0%提升至 83.4%。 MultiCodeIF提供了一个可扩展、约束感知且反馈敏感的框架,在现实代码生成场景下对LLM进行基准测试,弥合了合成评估与真实世界指令复杂性之间的差距。 完整的基准数据集、评估流程和源代码可在https://github.com/SYSUSELab/MultiCodeIF获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.