计算机科学 > 计算与语言
[提交于 2025年6月14日
]
标题: 理解知识图谱提取错误对下游图分析的影响:以隶属关系图为例
标题: Understanding the Effect of Knowledge Graph Extraction Error on Downstream Graph Analyses: A Case Study on Affiliation Graphs
摘要: 知识图谱(KGs)对于分析从社会学到公共卫生等多个领域的社会结构、社区动态、机构成员资格以及其他复杂关系非常有用。 尽管大型语言模型(LLMs)的最新进展提高了从大规模文本语料库中自动提取知识图谱的可扩展性和易用性,但人们对提取错误对下游分析的影响了解甚少,尤其是对依赖准确知识图谱以获取现实世界洞见的应用科学家而言。 为了解决这一差距,我们进行了首次针对两个层面的知识图谱提取性能评估:(1) 微观层面的边准确性,这与标准自然语言处理(NLP)评估一致,并手动识别常见错误来源;(2) 宏观层面的图指标,这些指标评估社区检测和连通性等结构属性,这些属性与实际应用相关。 专注于从社交登记簿中提取的个人在组织中的隶属关系图,我们的研究发现了一种提取性能范围,在此范围内大多数下游图分析指标的偏差接近于零。 然而,随着提取性能下降,我们发现许多指标表现出越来越明显的偏差,每个指标倾向于一致地过度估计或低估。 通过模拟,我们进一步表明文献中常用的错误模型未能捕捉到这些偏差模式,这表明需要更现实的错误模型来用于知识图谱提取。 我们的研究结果为从业人员提供了可行的见解,并强调了改进提取方法和错误建模的重要性,以确保可靠且有意义的下游分析。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.