Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.02408

帮助 | 高级搜索

计算机科学 > 信息检索

arXiv:2501.02408 (cs)
[提交于 2025年1月5日 ]

标题: GenTREC:由大型语言模型生成的第一个用于评估信息检索系统的测试集合

标题: GenTREC: The First Test Collection Generated by Large Language Models for Evaluating Information Retrieval Systems

Authors:Mehmet Deniz Türkmen, Mucahid Kutlu, Bahadir Altun, Gokalp Cosgun
摘要: 构建信息检索评估的测试集合传统上是一项资源密集且耗时的任务,主要是由于依赖于人工的相关性判断。 尽管已经探索了各种成本效益高的策略,但此类集合的开发仍然是一个重大挑战。 在本文中,我们介绍了GenTREC,这是第一个完全由大型语言模型(LLM)生成的文档构建的测试集合,消除了对人工相关性判断的需求。 我们的方法基于这样一个假设,即由LLM生成的文档本质上与其生成所使用的提示相关。 基于这一启发式方法,我们利用现有的TREC搜索主题生成文档。 我们只认为生成文档的提示是相关的,而其他文档-主题对则被视为不相关。 为了引入现实的检索挑战,我们还生成了不相关的文档,确保信息检索系统能够针对多样化和强大的材料集进行测试。 生成的GenTREC集合包含96,196个文档、300个主题和18,964个相关性“判断”。 我们进行了广泛的实验,以文档质量、相关性判断准确性和评估可靠性等方面评估GenTREC。 值得注意的是,我们的研究结果表明,使用GenTREC对信息检索系统的排名与使用传统TREC测试集合进行的评估相容,特别是在P@100、MAP和RPrec指标上。 总体而言,我们的结果表明,我们提出的方法为信息检索评估提供了一个有前景的低成本替代方案,显著降低了构建和维护未来信息检索评估资源的负担。
摘要: Building test collections for Information Retrieval evaluation has traditionally been a resource-intensive and time-consuming task, primarily due to the dependence on manual relevance judgments. While various cost-effective strategies have been explored, the development of such collections remains a significant challenge. In this paper, we present GenTREC , the first test collection constructed entirely from documents generated by a Large Language Model (LLM), eliminating the need for manual relevance judgments. Our approach is based on the assumption that documents generated by an LLM are inherently relevant to the prompts used for their generation. Based on this heuristic, we utilized existing TREC search topics to generate documents. We consider a document relevant only to the prompt that generated it, while other document-topic pairs are treated as non-relevant. To introduce realistic retrieval challenges, we also generated non-relevant documents, ensuring that IR systems are tested against a diverse and robust set of materials. The resulting GenTREC collection comprises 96,196 documents, 300 topics, and 18,964 relevance "judgments". We conducted extensive experiments to evaluate GenTREC in terms of document quality, relevance judgment accuracy, and evaluation reliability. Notably, our findings indicate that the ranking of IR systems using GenTREC is compatible with the evaluations conducted using traditional TREC test collections, particularly for P@100, MAP, and RPrec metrics. Overall, our results show that our proposed approach offers a promising, low-cost alternative for IR evaluation, significantly reducing the burden of building and maintaining future IR evaluation resources.
主题: 信息检索 (cs.IR)
引用方式: arXiv:2501.02408 [cs.IR]
  (或者 arXiv:2501.02408v1 [cs.IR] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.02408
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Mucahid Kutlu [查看电子邮件]
[v1] 星期日, 2025 年 1 月 5 日 00:27:36 UTC (3,762 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs.IR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号