计算机科学 > 软件工程
[提交于 2025年6月25日
]
标题: 为现实应用设计、开发和评估工程化RAG系统
标题: Engineering RAG Systems for Real-World Applications: Design, Development, and Evaluation
摘要: 检索增强生成(RAG)系统正成为将大型语言模型(LLMs)与外部知识结合的关键方法,解决了事实准确性与上下文相关性方面的局限性。 然而,缺乏关于基于RAG实现的实证研究,这些研究在真实世界用例中进行,通过普通用户参与进行评估,并伴有系统性的经验总结记录。 本文介绍了五个针对治理、网络安全、农业、工业研究和医学诊断等实际场景开发的领域特定RAG应用。 每个系统都集成了多语言OCR、通过向量嵌入进行语义检索以及领域适应的LLMs,通过本地服务器或云API部署以满足不同的用户需求。 一项基于网络的评估涉及总共100名参与者,从六个维度评估了这些系统:(i)易用性,(ii)相关性,(iii)透明度,(iv)响应性,(v)准确性,(vi)推荐的可能性。 根据用户反馈和我们的开发经验,我们记录了十二个关键经验教训,突出了影响RAG系统在实践中可靠性和可用性的技术、运营和伦理挑战。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.