Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.19988v2

帮助 | 高级搜索

计算机科学 > 数据库

arXiv:2505.19988v2 (cs)
[提交于 2025年5月26日 (v1) ,最后修订 2025年6月3日 (此版本, v2)]

标题: 自动元数据提取用于文本到SQL

标题: Automatic Metadata Extraction for Text-to-SQL

Authors:Vladislav Shkapenyuk, Divesh Srivastava, Theodore Johnson, Parisa Ghane
摘要: 大型语言模型(LLMs)最近变得足够复杂,可以自动化许多任务,从模式发现到写作辅助再到代码生成。 在本文中,我们研究了文本到SQL的生成。 我们从几十年的经验中观察到,查询开发中最困难的部分在于理解数据库内容。 这些经验指导了我们的研究方向。 SPIDER和Bird等文本到SQL基准测试包含了广泛且详细的元数据,而这些元数据在实践中通常不可用。 人为生成的元数据需要使用昂贵的主题专家(SMEs),而这些专家往往并不完全了解他们数据库的许多方面。 在本文中,我们探索了自动元数据提取的技术,以实现文本到SQL的生成。 我们探讨了两种标准和一种较新的元数据提取技术:分析、查询日志分析以及使用LLM的SQL到文本生成。 我们使用Bird基准测试[JHQY+23]来评估这些技术的有效性。 Bird在其测试数据库上没有提供查询日志,所以我们准备了一个仅使用分析的提交,并且没有使用任何专门调整过的模型(我们使用的是GPT-4o)。 在2024年9月1日至9月23日以及11月11日至11月23日期间,我们在使用和不使用问题集提供的“oracle”信息的情况下都取得了最高分。 我们在2025年3月11日重新夺回第一名的位置,并且在撰写时(2025年5月)仍保持在第一位。
摘要: Large Language Models (LLMs) have recently become sophisticated enough to automate many tasks ranging from pattern finding to writing assistance to code generation. In this paper, we examine text-to-SQL generation. We have observed from decades of experience that the most difficult part of query development lies in understanding the database contents. These experiences inform the direction of our research. Text-to-SQL benchmarks such as SPIDER and Bird contain extensive metadata that is generally not available in practice. Human-generated metadata requires the use of expensive Subject Matter Experts (SMEs), who are often not fully aware of many aspects of their databases. In this paper, we explore techniques for automatic metadata extraction to enable text-to-SQL generation. Ee explore the use of two standard and one newer metadata extraction techniques: profiling, query log analysis, and SQL-to text generation using an LLM. We use BIRD benchmark [JHQY+23] to evaluate the effectiveness of these techniques. BIRD does not provide query logs on their test database, so we prepared a submission that uses profiling alone, and does not use any specially tuned model (we used GPT-4o). From Sept 1 to Sept 23, 2024, and Nov 11 through Nov 23, 2024 we achieved the highest score both with and without using the "oracle" information provided with the question set. We regained the number 1 spot on Mar 11, 2025, and are still at #1 at the time of the writing (May, 2025).
评论: 37页
主题: 数据库 (cs.DB)
引用方式: arXiv:2505.19988 [cs.DB]
  (或者 arXiv:2505.19988v2 [cs.DB] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.19988
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Theodore Johnson [查看电子邮件]
[v1] 星期一, 2025 年 5 月 26 日 13:43:43 UTC (823 KB)
[v2] 星期二, 2025 年 6 月 3 日 15:23:03 UTC (823 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.DB
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号