计算机科学 > 信息检索
[提交于 2025年6月21日
]
标题: 基于大型语言模型的链接开放数据上的上下文感知科学知识提取
标题: Context-Aware Scientific Knowledge Extraction on Linked Open Data using Large Language Models
摘要: 科学文献的指数增长给研究人员提取和综合知识带来了挑战。 传统的搜索引擎返回许多没有直接、详细答案的来源,而通用的大规模语言模型可能提供简洁的回答,但缺乏深度或遗漏了最新信息。 具有搜索功能的大规模语言模型也受到上下文窗口的限制,导致回答简短且不完整。 本文介绍了WISE(智能科学知识提取工作流程),该系统通过使用结构化的工作流程来提取、精炼和排序与查询相关的知识,以解决这些限制。 WISE采用基于树的大规模语言模型架构来精炼数据,专注于与查询一致、上下文感知且无冗余的信息。 动态评分和排序优先考虑每个来源的独特贡献,自适应停止标准则最小化处理开销。 WISE通过系统地探索和综合来自不同来源的知识,提供详细且有组织的答案。 在与HBB基因相关疾病上的实验表明,WISE在实现比搜索引擎和其他基于大规模语言模型的方法显著更高的召回率的同时,将处理的文本减少了超过80%。 ROUGE和BLEU指标显示WISE的输出比其他系统更独特,一种新的基于级别的指标表明它提供了更深入的信息。 我们还探讨了如何将WISE工作流程适应于药物发现、材料科学和社会科学等不同领域,从而从非结构化的科学论文和网络资源中高效地提取和综合知识。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.