Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.21037

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2506.21037 (cs)
[提交于 2025年6月26日 ]

标题: RL-Selector:通过冗余评估的强化学习引导数据选择

标题: RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment

Authors:Suorong Yang, Peijia Li, Furao Shen, Jian Zhao
摘要: 现代深度架构通常依赖大规模数据集,但在这类数据集上进行训练会带来高昂的计算和存储开销。 现实世界的数据集通常包含大量冗余,这促使需要更高效的数据训练范式。 数据选择已被证明可以通过识别最具代表性的样本来减轻冗余,从而在不损害性能的情况下降低训练成本。 现有方法通常依赖静态评分指标或预训练模型,忽视了所选样本及其在训练过程中动态变化的综合影响。 我们引入了epsilon样本覆盖的概念,该概念基于样本间的关系量化样本冗余,捕捉数据集的内在结构。 基于此,我们将数据选择重新表述为强化学习(RL)过程,并提出RL-Selector,其中轻量级的RL代理通过利用从动态数据集分布中得出的epsilon样本覆盖作为奖励信号来优化选择策略。 在基准数据集和多种架构上的广泛实验表明,我们的方法始终优于现有的最先进基线。 使用我们选择的数据集训练的模型表现出增强的泛化性能并提高了训练效率。
摘要: Modern deep architectures often rely on large-scale datasets, but training on these datasets incurs high computational and storage overhead. Real-world datasets often contain substantial redundancies, prompting the need for more data-efficient training paradigms. Data selection has shown promise to mitigate redundancy by identifying the most representative samples, thereby reducing training costs without compromising performance. Existing methods typically rely on static scoring metrics or pretrained models, overlooking the combined effect of selected samples and their evolving dynamics during training. We introduce the concept of epsilon-sample cover, which quantifies sample redundancy based on inter-sample relationships, capturing the intrinsic structure of the dataset. Based on this, we reformulate data selection as a reinforcement learning (RL) process and propose RL-Selector, where a lightweight RL agent optimizes the selection policy by leveraging epsilon-sample cover derived from evolving dataset distribution as a reward signal. Extensive experiments across benchmark datasets and diverse architectures demonstrate that our method consistently outperforms existing state-of-the-art baselines. Models trained with our selected datasets show enhanced generalization performance with improved training efficiency.
评论: ICCV 2025
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.21037 [cs.LG]
  (或者 arXiv:2506.21037v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.21037
通过 DataCite 发表的 arXiv DOI(待注册)
期刊参考: ICCV 2025

提交历史

来自: Suorong Yang [查看电子邮件]
[v1] 星期四, 2025 年 6 月 26 日 06:28:56 UTC (1,095 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号