计算机科学 > 软件工程
[提交于 2025年8月1日
]
标题: 针对真实世界函数的单元测试生成的LLMs基准测试
标题: Benchmarking LLMs for Unit Test Generation from Real-World Functions
摘要: 最近,大型语言模型(LLMs)在自动化单元测试生成方面展现出巨大的潜力,显著减少了开发人员所需的手动努力。 为了有效评估LLMs在这一领域的能力,拥有一个设计良好的基准至关重要,该基准应准确反映现实场景并减轻常见陷阱。 现有的LLM测试生成基准存在两个关键缺陷:数据污染和结构简单的函数代码。 因此,我们通常无法依赖使用这些有限基准进行实证研究得出的科学结论的有效性。 由于污染,提供的实证证据可能具有偏差,并且由于结构简单,可能无法推广到玩具程序之外。 为了解决这些问题,我们引入了ULT(UnLeakedTestbench),这是一个专门针对从现实世界Python函数中进行函数级单元测试生成的新基准。 ULT通过多阶段的整理过程构建,确保高圈复杂度并减轻测试用例污染。 包含3,909个精心挑选的函数级任务,ULT提供了对LLMs测试生成能力更真实和更具挑战性的评估。 我们还提供了PLT(PreLeakedTestbench),一个与ULT具有泄漏测试的配对基准,旨在实现测试生成中记忆与推理的受控分析。 我们的评估结果表明, ULT更具挑战性。 例如,LLMs生成的测试用例在准确性、语句覆盖率、分支覆盖率和突变分数方面的平均值分别为41.32%、45.10%、30.22%和40.21%。 这些结果明显低于TestEval上的相应指标(91.79%、92.18%、82.04%和49.69%)和PLT(47.07%、55.13%、40.07%和50.80%)。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.