计算机科学 > 信息检索
[提交于 2025年6月26日
(v1)
,最后修订 2025年7月4日 (此版本, v2)]
标题: EraRAG:适用于不断增长语料库的高效和增量检索增强生成
标题: EraRAG: Efficient and Incremental Retrieval Augmented Generation for Growing Corpora
摘要: 基于图的检索增强生成(Graph-RAG)通过在外部语料库上进行结构化检索来增强大型语言模型(LLMs)。 然而,现有方法通常假设语料库是静态的,每当新文档到达时需要昂贵的全图重建,这限制了它们在动态、演进环境中的可扩展性。 为解决这些限制,我们引入EraRAG,一种支持高效和可扩展动态更新的新型多层Graph-RAG框架。 我们的方法利用基于超平面的局部敏感哈希(LSH)将原始语料库划分为分层图结构,从而实现无需破坏现有拓扑结构的高效和局部新数据插入。 该设计消除了重新训练或昂贵重新计算的需要,同时保持高检索准确性和低延迟。 在大规模基准测试中的实验表明,与现有的Graph-RAG系统相比,EraRag在更新时间和令牌消耗方面实现了数量级的减少,同时提供了更优的准确性表现。 这项工作为必须在持续增长的语料库上运行的RAG系统提供了一条实用的前进路径,弥合了检索效率和适应性之间的差距。 我们的代码和数据可在https://github.com/EverM0re/EraRAG-Official获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.