计算机科学 > 计算与语言
[提交于 2025年7月11日
]
标题: OpenCodeReasoning-II:通过自我批判的简单测试时缩放方法
标题: OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique
摘要: 基于推理的大型语言模型(LLMs)的最新进展,特别是其通过测试时缩放的潜力,为代码生成和批判的蒸馏创造了重大机会。 然而,这两个领域的进展根本上依赖于大规模、高质量的数据集。 在本工作中,我们引入了OpenCodeReasoning-II,一个包含250万个问题-解决方案-批判三元组的数据集(约35,000个独特的编程问题),使其大小几乎是之前最大公开可用代码推理数据集的两倍。 在本工作中,我们采用了一个两阶段的监督微调策略。 第一阶段专注于代码生成的微调,而第二阶段涉及代码生成和批判模型的联合训练。 我们得到的微调后的Qwen2.5-Instruct模型在代码生成方面的性能超过了或等于最佳先前开放权重蒸馏模型。 值得注意的是,我们的代码生成和批判模型的集成显著提高了竞争性编程性能。 此外,我们对LiveCodeBench基准进行了扩展,以专门支持C++编程语言,从而促进了使用此基准的更全面的LLM评估。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.