计算机科学 > 数据库
            [提交于 2025年10月8日
            
            
            
            ]
          
          标题: 使用大语言模型自动发现数据库管理系统测试规范
标题: Automated Discovery of Test Oracles for Database Management Systems Using LLMs
摘要: 自2020年以来,数据库管理系统(DBMSs)的自动化测试蓬勃发展,在广泛使用的系统中发现了数百个错误。 这些技术的核心是测试预言,通常实现一种生成等价查询对的机制,从而通过检查结果的一致性来识别错误。 然而,尽管应用这些预言可以自动化,但其设计仍然是一个根本上手动的过程。 本文探讨了使用大型语言模型(LLMs)来自动化测试预言的发现和实例化,解决了完全自动化DBMS测试的一个长期瓶颈。 尽管LLMs表现出令人印象深刻的新颖性,但它们容易产生幻觉,可能导致大量错误的错误报告。 此外,它们显著的经济成本和延迟意味着应限制LLM调用,以确保错误检测既高效又经济。 为此,我们引入了Argus,这是一个新的框架,基于约束抽象查询的核心概念——一个包含占位符及其相关实例化条件(例如,要求占位符由布尔列填充)的SQL骨架。 Argus使用LLMs生成被断言为语义等价的这些骨架对。 然后使用SQL等价求解器对这种等价性进行形式化证明,以确保正确性。 最后,将经过验证的骨架中的占位符用具体的、可重用的SQL片段进行实例化,这些片段也由LLMs合成,以高效生成复杂的测试用例。 我们实现了Argus,并在五个广泛测试的DBMSs上进行了评估,发现了40个之前未知的错误,其中35个是逻辑错误,36个已被确认,26个已由开发人员修复。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  