计算机科学 > 软件工程
[提交于 2025年7月14日
]
标题: LLMShot:通过LLMs减少快照测试维护
标题: LLMShot: Reducing snapshot testing maintenance via LLMs
摘要: 快照测试已成为现代软件开发中UI验证的关键技术,但由于频繁的UI变化导致测试失败,需要人工检查来区分真正的回归和有意的设计变更,因此存在大量的维护开销。这种手动分类过程在应用程序不断演变的过程中变得越来越繁重,从而需要自动分析解决方案。本文介绍了LLMShot,这是一种新颖的框架,利用基于视觉的大规模语言模型通过UI变化的分层分类自动分析快照测试失败。为了评估LLMShot的有效性,我们使用一个功能丰富的iOS应用程序和可配置的功能标志开发了一个全面的数据集,创建了产生真实快照差异的现实场景,这些差异代表了真实的开发工作流程。我们的评估使用Gemma3模型显示了出色的分类性能,12B版本在识别失败根本原因方面达到了84%以上的召回率,而4B模型则在连续集成环境中提供了可接受的性能和实际的部署优势。然而,我们对选择性忽略机制的探索揭示了当前基于提示的方法在可控视觉推理方面的显著局限性。LLMShot是第一个自动语义快照测试分析方法,为开发者提供了结构化的见解,可以大幅减少手动分类的工作量,并推动更智能的UI测试范式的发展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.