计算机科学 > 计算与语言
[提交于 2025年9月1日
]
标题: ABCD-LINK:跨文档细粒度链接的注释自举
标题: ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links
摘要: 理解文档之间的细粒度关系对于许多应用领域至关重要。然而,由于缺乏高效的方法来创建跨文档链接的训练和评估数据集,自动化辅助的研究受到限制。为了解决这个问题,我们引入了一个新的与领域无关的框架,用于从头开始选择最佳性能的方法并在新领域中标注跨文档链接。我们首先生成并验证了相互连接文档的半合成数据集。这些数据用于自动评估,生成最佳性能的链接方法清单。然后将这些方法用于广泛的人工评估研究,得出自然文本对的性能估计。我们在两个不同的领域——同行评审和新闻——中应用我们的框架,并表明结合检索模型和大语言模型(LLMs)可以从人工评分者那里获得78%的链接批准,这使强检索器单独的精度翻了一番。我们的框架使得在不同应用场景下系统地研究跨文档理解成为可能,而产生的新颖数据集为众多跨文档任务(如媒体框架和同行评审)奠定了基础。我们公开提供代码、数据和标注协议。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.