Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.20543

帮助 | 高级搜索

计算机科学 > 信息检索

arXiv:2508.20543 (cs)
[提交于 2025年8月28日 ]

标题: 增强语义文档检索—利用带有领域知识增强的组Steiner树算法

标题: Enhancing Semantic Document Retrieval- Employing Group Steiner Tree Algorithm with Domain Knowledge Enrichment

Authors:Apurva Kulkarni, Chandrashekar Ramanathan, Vinu E Venugopal
摘要: 从具有不同特性的各种数据源中检索相关文档,对文档检索系统构成了重大挑战。 当考虑到数据与领域知识之间的语义关系时,这一挑战的复杂性进一步增加。 虽然现有的使用语义的检索系统(通常以从开放资源和通用领域知识创建的知识图谱表示)在提供相关结果方面具有潜力,但由于缺乏领域特定信息并依赖过时的知识源,其精度可能会受到影响。 本研究的主要重点是两个关键贡献——a) 开发一种通用算法——“基于语义的概念检索使用组Steiner树”,该算法结合领域信息以增强语义感知的知识表示和数据访问,以及b) 在使用真实数据的文档检索系统中实现所提出的算法。 为了评估SemDR系统的有效性,研究工作使用包含170个真实搜索查询的基准进行性能评估。 通过领域专家进行严格的评估和验证,以确保结果的有效性和准确性。 实验结果表明,与基线系统相比有显著进步,精度和准确率分别达到90%和82%,表明有良好的改进。
摘要: Retrieving pertinent documents from various data sources with diverse characteristics poses a significant challenge for Document Retrieval Systems. The complexity of this challenge is further compounded when accounting for the semantic relationship between data and domain knowledge. While existing retrieval systems using semantics (usually represented as Knowledge Graphs created from open-access resources and generic domain knowledge) hold promise in delivering relevant outcomes, their precision may be compromised due to the absence of domain-specific information and reliance on outdated knowledge sources. In this research, the primary focus is on two key contributions- a) the development of a versatile algorithm- 'Semantic-based Concept Retrieval using Group Steiner Tree' that incorporates domain information to enhance semantic-aware knowledge representation and data access, and b) the practical implementation of the proposed algorithm within a document retrieval system using real-world data. To assess the effectiveness of the SemDR system, research work conducts performance evaluations using a benchmark consisting of 170 real-world search queries. Rigorous evaluation and verification by domain experts are conducted to ensure the validity and accuracy of the results. The experimental findings demonstrate substantial advancements when compared to the baseline systems, with precision and accuracy achieving levels of 90% and 82% respectively, signifying promising improvements.
主题: 信息检索 (cs.IR) ; 计算机与社会 (cs.CY)
引用方式: arXiv:2508.20543 [cs.IR]
  (或者 arXiv:2508.20543v1 [cs.IR] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.20543
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Apurva Kulkarni [查看电子邮件]
[v1] 星期四, 2025 年 8 月 28 日 08:29:55 UTC (930 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CY
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.IR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号