Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.15357

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2508.15357 (cs)
[提交于 2025年8月21日 ]

标题: KG-EDAS:一种用于评估知识图谱补全模型的元度量框架

标题: KG-EDAS: A Meta-Metric Framework for Evaluating Knowledge Graph Completion Models

Authors:Haji Gul, Abul Ghani Naim, Ajaz Ahmad Bhat
摘要: 知识图谱(KGs)在语义搜索、推荐系统和自然语言处理等多个领域中都有应用。 KGs通常不完整,缺少实体和关系,这一问题通过知识图谱补全(KGC)方法来解决,这些方法可以预测缺失的元素。 常用的评估指标包括平均倒数排名(MRR)、平均排名(MR)和Hit@k,用于评估此类KGC模型的性能。 然而,评估KGC模型的一个主要挑战在于在多个数据集和指标之间比较其性能。 一个模型可能在一个数据集上优于其他模型,但在另一个数据集中表现较差,这使得确定整体优势变得困难。 此外,即使在单个数据集中,不同的指标如MRR和Hit@1也可能产生冲突的排名,其中一个模型在MRR上表现优异,而另一个模型在Hit@1上表现更好,这进一步增加了下游任务中模型选择的复杂性。 这些不一致性阻碍了全面的比较,并突显了需要一种统一的元指标,该指标能够整合所有指标和数据集上的性能,以实现更可靠和可解释的评估框架。 为了解决这一需求,我们提出了基于平均解距离的知识图谱评估(EDAS),这是一种稳健且可解释的元指标,能够将多个数据集和多样化的评估标准下的模型性能综合成一个归一化分数($M_i \in [0,1]$)。 与传统指标仅关注性能的孤立方面不同,EDAS提供了一个全局视角,支持更明智的模型选择,并促进了跨数据集评估的公平性。 在基准数据集如FB15k-237和WN18RR上的实验结果表明,EDAS能够有效地将多指标、多数据集的性能整合到一个统一的排名中,为评估KGC模型提供了一个一致、稳健且可推广的框架。
摘要: Knowledge Graphs (KGs) enable applications in various domains such as semantic search, recommendation systems, and natural language processing. KGs are often incomplete, missing entities and relations, an issue addressed by Knowledge Graph Completion (KGC) methods that predict missing elements. Different evaluation metrics, such as Mean Reciprocal Rank (MRR), Mean Rank (MR), and Hit@k, are commonly used to assess the performance of such KGC models. A major challenge in evaluating KGC models, however, lies in comparing their performance across multiple datasets and metrics. A model may outperform others on one dataset but underperform on another, making it difficult to determine overall superiority. Moreover, even within a single dataset, different metrics such as MRR and Hit@1 can yield conflicting rankings, where one model excels in MRR while another performs better in Hit@1, further complicating model selection for downstream tasks. These inconsistencies hinder holistic comparisons and highlight the need for a unified meta-metric that integrates performance across all metrics and datasets to enable a more reliable and interpretable evaluation framework. To address this need, we propose KG Evaluation based on Distance from Average Solution (EDAS), a robust and interpretable meta-metric that synthesizes model performance across multiple datasets and diverse evaluation criteria into a single normalized score ($M_i \in [0,1]$). Unlike traditional metrics that focus on isolated aspects of performance, EDAS offers a global perspective that supports more informed model selection and promotes fairness in cross-dataset evaluation. Experimental results on benchmark datasets such as FB15k-237 and WN18RR demonstrate that EDAS effectively integrates multi-metric, multi-dataset performance into a unified ranking, offering a consistent, robust, and generalizable framework for evaluating KGC models.
主题: 计算与语言 (cs.CL) ; 性能 (cs.PF)
引用方式: arXiv:2508.15357 [cs.CL]
  (或者 arXiv:2508.15357v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.15357
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Haji Gul [查看电子邮件]
[v1] 星期四, 2025 年 8 月 21 日 08:37:35 UTC (74 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.PF

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号