计算机科学 > 软件工程
[提交于 2025年7月17日
]
标题: 调查小型语言模型在检测手动测试用例中测试异味方面的性能
标题: Investigating the Performance of Small Language Models in Detecting Test Smells in Manual Test Cases
摘要: 人工测试,测试人员按照自然语言指令验证系统行为,对于发现自动化难以捕捉的问题仍然至关重要。 然而,这些测试用例常常存在测试异味,如歧义、冗余或缺失检查等质量问题,这会降低测试的可靠性和可维护性。 虽然存在检测工具,但它们通常需要手动定义规则且缺乏可扩展性。 本研究探讨了小型语言模型(SLMs)在自动检测测试异味方面的潜力。 我们在143个现实世界的Ubuntu测试用例上评估了Gemma3、Llama3.2和Phi-4,涵盖了七种类型的测试异味。 Phi-4取得了最佳结果,在检测含有测试异味的句子中达到了97%的pass@2,而Gemma3和Llama3.2分别达到了约91%。 除了检测之外,SLMs还能自主解释问题并提出改进建议,即使没有明确的提示指令。 它们能够在不依赖大量规则定义或语法分析的情况下,实现低成本、概念驱动的多种测试异味识别。 这些发现突显了SLMs作为高效工具的潜力,能够保护数据隐私,并在现实场景中提高测试质量。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.