计算机科学 > 计算与语言
[提交于 2025年10月26日
]
标题: $\text{E}^2\text{Rank}$: 你的文本嵌入也可以是一个有效且高效的列表重新排序器
标题: $\text{E}^2\text{Rank}$: Your Text Embedding can Also be an Effective and Efficient Listwise Reranker
摘要: 文本嵌入模型是现实世界搜索应用中的基础组件。 通过将查询和文档映射到共享的嵌入空间,它们以高效率提供了具有竞争力的检索性能。 然而,与专门的重排序器相比,尤其是最近基于大语言模型的列表重排序器,它们的排序保真度仍然有限,这些重排序器能够捕捉细粒度的查询-文档和文档-文档交互。 在本文中,我们提出了一种简单而有效的统一框架$\text{E}^2\text{Rank}$,即高效嵌入式排序(也称为嵌入到排序),该框架通过在列表排序目标下的持续训练,将单个文本嵌入模型扩展为同时执行高质量检索和列表重排序,从而实现了强大的效果和显著的效率。 通过将查询和文档嵌入之间的余弦相似性作为统一的排序函数,从原始查询及其候选文档构建的列表排序提示,作为一种经过顶部K文档信号增强的增强查询,类似于传统检索模型中的伪相关反馈(PRF)。 这种设计保留了基础嵌入模型的效率和表征质量,同时显著提高了其重排序性能。 实证研究表明,$\textrm{E}^2\text{Rank}$在BEIR重排序基准上取得了最先进的结果,并在计算密集型BRIGHT基准上表现出具有竞争力的性能,且重排序延迟非常低。 我们还表明,重排序训练过程提升了MTEB基准上的嵌入性能。 我们的研究结果表明,单一的嵌入模型可以有效地统一检索和重排序,提供计算效率和具有竞争力的排序准确性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.