计算机科学 > 数据库
[提交于 2025年7月8日
]
标题: SQLBarber:一个利用大型语言模型生成定制化和现实SQL工作负载的系统
标题: SQLBarber: A System Leveraging Large Language Models to Generate Customized and Realistic SQL Workloads
摘要: 数据库研究和开发通常需要大量SQL查询用于基准测试。然而,由于隐私问题,获取真实世界的SQL查询具有挑战性,现有的SQL生成方法在定制化和满足现实约束方面存在局限。为了解决这个问题,我们提出了SQLBarber,一个基于大型语言模型(LLMs)的系统,用于生成定制化和现实的SQL工作负载。SQLBarber(i)消除了用户预先手动构建SQL模板的需要,同时提供了接受自然语言规范来约束SQL模板的灵活性,(ii)能够高效扩展以生成符合任何用户定义成本分布(例如基数和执行计划成本)的大规模查询,(iii)利用Amazon Redshift和Snowflake的执行统计信息,推导出反映现实世界查询特征的SQL模板规范和查询成本分布。SQLBarber引入了(i)一种声明式接口,使用户能够轻松生成定制化的SQL模板,(ii)一个由自校正模块增强的LLM驱动的管道,该模块根据查询成本对SQL模板进行分析、优化和修剪,以及(iii)一个贝叶斯优化器,以高效探索不同的谓词值并识别一组满足目标成本分布的查询。我们基于Snowflake和Amazon Redshift的真实统计数据构建并开源了十个不同难度级别和目标查询成本分布的基准。这些基准上的大量实验表明,SQLBarber是唯一能够生成定制化SQL模板的系统。与现有方法相比,它将查询生成时间减少了1到3个数量级,并显著提高了与目标成本分布的一致性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.