计算机科学 > 软件工程
[提交于 2025年7月23日
]
标题: AssertFlip:通过反转LLM生成的通过测试来再现错误
标题: AssertFlip: Reproducing Bugs via Inversion of LLM-Generated Passing Tests
摘要: 错误重现是软件调试和修复过程中的关键环节,然而在开源和工业环境中,大多数错误在报告时缺乏可执行的测试用例来重现它们,这使得诊断和解决变得更加困难和耗时。 为了解决这一挑战,我们引入了AssertFlip,这是一种使用大型语言模型(LLMs)自动生成可重现错误测试(BRTs)的新技术。 与现有方法试图直接生成失败测试不同,AssertFlip首先在有错误的行为上生成通过的测试,然后将这些测试反转,以便在存在错误时失败。 我们假设LLMs在编写通过的测试方面比那些故意崩溃或失败的测试更好。 我们的结果表明,AssertFlip在SWT-Bench基准测试中优于所有已知技术,该基准测试专门用于BRTs。 具体而言,AssertFlip在SWT-Bench-Verified子集上实现了43.6%的失败到通过的成功率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.