计算机科学 > 信息检索
[提交于 2025年5月26日
]
标题: REARANK:通过强化学习进行推理重新排序的代理
标题: REARANK: Reasoning Re-ranking Agent via Reinforcement Learning
摘要: 我们提出REARANK,一个基于大型语言模型(LLM)的列表推理重新排序代理。 REARANK在重新排序之前显式地进行推理,显著提高了性能和可解释性。 利用强化学习和数据增强,REARANK在流行的信息检索基准测试中相对于基线模型取得了显著改进,特别是在仅需要179个标注样本的情况下。 基于Qwen2.5-7B构建,我们的REARANK-7B在领域内和领域外基准测试中的表现与GPT-4相当,甚至在推理密集型的BRIGHT基准测试中超越了GPT-4。 这些结果证明了我们方法的有效性,并突显了强化学习如何在重新排序中增强LLM的推理能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.