计算机科学 > 信息检索
[提交于 2025年1月5日
]
标题: GenTREC:由大型语言模型生成的第一个用于评估信息检索系统的测试集合
标题: GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems
摘要: 构建信息检索评估的测试集合传统上是一项资源密集且耗时的任务,主要是由于依赖于人工的相关性判断。 尽管已经探索了各种成本效益高的策略,但此类集合的开发仍然是一个重大挑战。 在本文中,我们介绍了GenTREC,这是第一个完全由大型语言模型(LLM)生成的文档构建的测试集合,消除了对人工相关性判断的需求。 我们的方法基于这样一个假设,即由LLM生成的文档本质上与其生成所使用的提示相关。 基于这一启发式方法,我们利用现有的TREC搜索主题生成文档。 我们只认为生成文档的提示是相关的,而其他文档-主题对则被视为不相关。 为了引入现实的检索挑战,我们还生成了不相关的文档,确保信息检索系统能够针对多样化和强大的材料集进行测试。 生成的GenTREC集合包含96,196个文档、300个主题和18,964个相关性“判断”。 我们进行了广泛的实验,以文档质量、相关性判断准确性和评估可靠性等方面评估GenTREC。 值得注意的是,我们的研究结果表明,使用GenTREC对信息检索系统的排名与使用传统TREC测试集合进行的评估相容,特别是在P@100、MAP和RPrec指标上。 总体而言,我们的结果表明,我们提出的方法为信息检索评估提供了一个有前景的低成本替代方案,显著降低了构建和维护未来信息检索评估资源的负担。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.