计算机科学 > 计算与语言
[提交于 2025年7月16日
]
标题: 增强检索增强生成用于结构化企业及内部数据
标题: Advancing Retrieval-Augmented Generation for Structured Enterprise and Internal Data
摘要: 组织越来越多地依赖专有企业数据,包括人力资源记录、结构化报告和表格文档,用于关键决策。 虽然大型语言模型(LLMs)具有强大的生成能力,但它们受到静态预训练、短上下文窗口以及处理异构数据格式的挑战的限制。 传统检索增强生成(RAG)框架解决了一些这些差距,但通常在处理结构化和半结构化数据时遇到困难。 本工作提出了一种先进的RAG框架,结合使用密集嵌入(all-mpnet-base-v2)和BM25的混合检索策略,并通过SpaCy NER和交叉编码器重新排序进行元数据感知过滤。 该框架应用语义分块以保持文本连贯性,并保留表格数据结构以保持行列表达的完整性。 量化索引优化了检索效率,而人工介入反馈和对话记忆提高了适应性。 在企业数据集上的实验显示显著改进:Precision@5提高了15%(90对75),Recall@5提高了13%(87对74),平均倒数排名提高了16%(0.85对0.69)。 定性评估显示在5点李克特量表上,忠实度(4.6对3.0)、完整度(4.2对2.5)和相关度(4.5对3.2)得分更高。 这些结果证明了该框架在为企业任务提供准确、全面和上下文相关的响应方面的有效性。 未来的工作包括扩展到多模态数据并集成基于代理的检索。 源代码将发布在https://github.com/CheerlaChandana/Enterprise-Chatbot
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.