计算机科学 > 数据库
[提交于 2025年5月27日
]
标题: StreamLink:基于大型语言模型的分布式数据工程系统
标题: StreamLink: Large-Language-Model Driven Distributed Data Engineering System
摘要: 大型语言模型(LLMs)在自然语言理解(NLU)方面表现出色,为创新应用打开了大门。 我们介绍了StreamLink——一种基于LLM的分布式数据系统,旨在提高数据工程任务的效率和可访问性。 我们基于Apache Spark和Hadoop等分布式框架构建了StreamLink,以处理大规模数据。 StreamLink的一个重要设计理念是通过使用本地微调的LLM来尊重用户的数据隐私,而不是像ChatGPT这样的公共AI服务。 借助领域适应的LLM,我们可以改进系统在各种场景下对用户自然语言查询的理解,并简化生成用于信息处理的数据库查询(如结构化查询语言SQL)的过程。 我们还结合了基于LLM的语法和安全性检查器,以确保每个生成查询的可靠性和安全性。 StreamLink展示了将生成型LLM与分布式数据处理相结合以实现全面且以用户为中心的数据工程的潜力。 有了这个架构,我们让用户能够以友好的方式与不同规模的复杂数据库系统交互,并确保安全性,其中SQL生成的执行准确率比基线方法高出10%以上,同时允许用户在几秒钟内使用自然语言从数亿个项目中找到最关心的项目。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.