计算机科学 > 数据库
[提交于 2025年5月26日
(v1)
,最后修订 2025年6月3日 (此版本, v2)]
标题: 自动元数据提取用于文本到SQL
标题: Automatic Metadata Extraction for Text-to-SQL
摘要: 大型语言模型(LLMs)最近变得足够复杂,可以自动化许多任务,从模式发现到写作辅助再到代码生成。 在本文中,我们研究了文本到SQL的生成。 我们从几十年的经验中观察到,查询开发中最困难的部分在于理解数据库内容。 这些经验指导了我们的研究方向。 SPIDER和Bird等文本到SQL基准测试包含了广泛且详细的元数据,而这些元数据在实践中通常不可用。 人为生成的元数据需要使用昂贵的主题专家(SMEs),而这些专家往往并不完全了解他们数据库的许多方面。 在本文中,我们探索了自动元数据提取的技术,以实现文本到SQL的生成。 我们探讨了两种标准和一种较新的元数据提取技术:分析、查询日志分析以及使用LLM的SQL到文本生成。 我们使用Bird基准测试[JHQY+23]来评估这些技术的有效性。 Bird在其测试数据库上没有提供查询日志,所以我们准备了一个仅使用分析的提交,并且没有使用任何专门调整过的模型(我们使用的是GPT-4o)。 在2024年9月1日至9月23日以及11月11日至11月23日期间,我们在使用和不使用问题集提供的“oracle”信息的情况下都取得了最高分。 我们在2025年3月11日重新夺回第一名的位置,并且在撰写时(2025年5月)仍保持在第一位。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.