计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: RAG-Instruct:通过多样化检索增强指令提升大型语言模型
标题: RAG-Instruct: Boosting LLMs with Diverse Retrieval-Augmented Instructions
摘要: 检索增强生成(RAG)已成为一种关键范式,通过结合外部知识来增强大型语言模型(LLMs)。 然而,当前的RAG方法面临两个限制:(1)它们仅涵盖有限的RAG场景。(2)由于缺乏通用的RAG数据集,任务多样性受到限制。 为了解决这些限制,我们提出了RAG-Instruct,这是一种基于任何源语料库合成多样且高质量RAG指令数据的通用方法。 我们的方法利用了(1)五种RAG范式,涵盖了多样化的查询-文档关系,以及(2)指令模拟,通过利用现有指令数据集的优势来增强指令的多样性和质量。 使用这种方法,我们从维基百科构建了一个40K指令数据集,全面覆盖了多样的RAG场景和任务。 实验表明,RAG-Instruct有效增强了LLMs的RAG能力,在零样本性能方面表现强劲,并在多种任务中显著优于各种RAG基线。 RAG-Instruct可在https://github.com/FreedomIntelligence/RAG-Instruct公开获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.