计算机科学 > 机器学习
[提交于 2025年5月29日
]
标题: VERINA:可验证代码生成的基准测试
标题: VERINA: Benchmarking Verifiable Code Generation
摘要: 大型语言模型(LLMs)在软件开发中的应用日益广泛,但确保LLM生成代码的正确性仍然具有挑战性,并且通常需要耗费高昂的人工审查成本。 可验证代码生成——即联合生成代码、规范以及代码与规范一致性的证明——提供了一种解决这一局限性并进一步释放LLM在编码方面优势的有前景的途径。 然而,目前在评估方面存在显著差距:现有的基准测试往往缺乏对端到端可验证代码生成的支持。 在本文中,我们引入了Verina(可验证代码生成竞技场),这是一个高质量的基准测试集,能够全面而模块化地评估代码、规范和证明生成及其组合。 Verina由189个手动精心策划的Lean编程任务组成,每个任务都有详细的问题描述、参考实现、形式化规范以及广泛的测试套件。 我们的广泛评估揭示了当前最先进的LLMs在可验证代码生成方面的重大挑战,尤其是在证明生成方面,这凸显了改进基于LLM的定理证明器在验证领域的重要性。 最佳模型OpenAI o4-mini在每个任务上仅生成了61.4%的正确代码、51.0%的准确且完整的规范以及3.6%的成功证明。 我们希望Verina能通过提供一个严谨且全面的基准测试集推动可验证代码生成的进步。 我们将数据集发布在https://huggingface.co/datasets/sunblaze-ucb/verina上,并将评估代码发布在https://github.com/sunblaze-ucb/verina上。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.