Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.21352

帮助 | 高级搜索

计算机科学 > 信息检索

arXiv:2510.21352 (cs)
[提交于 2025年10月24日 ]

标题: SciNUP:科学文献推荐的自然语言用户兴趣档案

标题: SciNUP: Natural Language User Interest Profiles for Scientific Literature Recommendation

Authors:Mariam Arustashvili, Krisztian Balog
摘要: 自然语言(NL)用户资料在推荐系统中的使用相比传统表示方式提供了更高的透明度和用户控制能力。 然而,目前缺乏大规模、公开可用的测试集合来评估基于NL资料的推荐。 为解决这一差距,我们引入了SciNUP,这是一个新颖的合成数据集,用于学术推荐,它利用作者的出版历史生成NL资料和相应的真实项目。 我们使用这个数据集对基线方法进行了比较,包括从稀疏和密集检索方法到最先进的基于LLM的重新排序器。 我们的结果表明,尽管基线方法表现出相当的性能,但它们经常检索不同的项目,表明它们的行为具有互补性。 同时,仍有很大的改进空间,突显了有效基于NL的推荐方法的必要性。 因此,SciNUP数据集成为促进该领域未来研究和开发的宝贵资源。
摘要: The use of natural language (NL) user profiles in recommender systems offers greater transparency and user control compared to traditional representations. However, there is scarcity of large-scale, publicly available test collections for evaluating NL profile-based recommendation. To address this gap, we introduce SciNUP, a novel synthetic dataset for scholarly recommendation that leverages authors' publication histories to generate NL profiles and corresponding ground truth items. We use this dataset to conduct a comparison of baseline methods, ranging from sparse and dense retrieval approaches to state-of-the-art LLM-based rerankers. Our results show that while baseline methods achieve comparable performance, they often retrieve different items, indicating complementary behaviors. At the same time, considerable headroom for improvement remains, highlighting the need for effective NL-based recommendation approaches. The SciNUP dataset thus serves as a valuable resource for fostering future research and development in this area.
主题: 信息检索 (cs.IR)
引用方式: arXiv:2510.21352 [cs.IR]
  (或者 arXiv:2510.21352v1 [cs.IR] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.21352
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Mariam Arustashvili [查看电子邮件]
[v1] 星期五, 2025 年 10 月 24 日 11:28:08 UTC (197 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.IR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号