Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.23077

帮助 | 高级搜索

计算机科学 > 信息检索

arXiv:2510.23077 (cs)
[提交于 2025年10月27日 ]

标题: 思考前推荐:增强自主推理的推荐系统

标题: Think before Recommendation: Autonomous Reasoning-enhanced Recommender

Authors:Xiaoyu Kong, Junguang Jiang, Bin Liu, Ziru Xu, Han Zhu, Jian Xu, Bo Zheng, Jiancan Wu, Xiang Wang
摘要: 推荐系统的核心任务是从历史的用户-项目交互中学习用户偏好。随着大型语言模型(LLMs)的快速发展,最近的研究探索了利用LLMs的推理能力来增强评分预测任务。然而,现有的基于蒸馏的方法存在诸如教师模型的推荐能力不足、成本高昂且静态的监督以及推理能力的表面迁移等限制。为了解决这些问题,本文提出了RecZero,一种基于强化学习(RL)的推荐范式,摒弃了传统的多模型和多阶段蒸馏方法。相反,RecZero通过纯强化学习训练一个LLM,使其自主发展评分预测的推理能力。RecZero包含两个关键组件:(1) "推荐前思考"提示构建,采用结构化的推理模板引导模型逐步分析用户兴趣、项目特征和用户-项目兼容性;以及(2)基于规则的奖励建模,采用群体相对策略优化(GRPO)计算推理轨迹的奖励并优化LLM。此外,本文还探索了一种混合范式RecOne,结合监督微调与RL,使用冷启动推理样本初始化模型,并进一步通过RL进行优化。实验结果表明,RecZero和RecOne在多个基准数据集上显著优于现有的基线方法,验证了强化学习范式在实现自主推理增强的推荐系统中的优越性。
摘要: The core task of recommender systems is to learn user preferences from historical user-item interactions. With the rapid development of large language models (LLMs), recent research has explored leveraging the reasoning capabilities of LLMs to enhance rating prediction tasks. However, existing distillation-based methods suffer from limitations such as the teacher model's insufficient recommendation capability, costly and static supervision, and superficial transfer of reasoning ability. To address these issues, this paper proposes RecZero, a reinforcement learning (RL)-based recommendation paradigm that abandons the traditional multi-model and multi-stage distillation approach. Instead, RecZero trains a single LLM through pure RL to autonomously develop reasoning capabilities for rating prediction. RecZero consists of two key components: (1) "Think-before-Recommendation" prompt construction, which employs a structured reasoning template to guide the model in step-wise analysis of user interests, item features, and user-item compatibility; and (2) rule-based reward modeling, which adopts group relative policy optimization (GRPO) to compute rewards for reasoning trajectories and optimize the LLM. Additionally, the paper explores a hybrid paradigm, RecOne, which combines supervised fine-tuning with RL, initializing the model with cold-start reasoning samples and further optimizing it with RL. Experimental results demonstrate that RecZero and RecOne significantly outperform existing baseline methods on multiple benchmark datasets, validating the superiority of the RL paradigm in achieving autonomous reasoning-enhanced recommender systems.
评论: 神经网络与人工智能国际会议2025海报
主题: 信息检索 (cs.IR) ; 人工智能 (cs.AI)
引用方式: arXiv:2510.23077 [cs.IR]
  (或者 arXiv:2510.23077v1 [cs.IR] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.23077
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xiaoyu Kong [查看电子邮件]
[v1] 星期一, 2025 年 10 月 27 日 07:26:32 UTC (492 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.IR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号