Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.00358

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2505.00358 (cs)
[提交于 2025年5月1日 ]

标题: R&B:域重组和数据混合平衡,实现高效的基础模型训练

标题: R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training

Authors:Albert Ge, Tzu-Heng Huang, John Cooper, Avi Trost, Ziyi Chu, Satya Sai Srinath Namburi GNVV, Ziyang Cai, Kendall Park, Nicholas Roberts, Frederic Sala
摘要: 数据混合策略已成功降低语言模型训练的成本。尽管这些方法前景光明,但它们也存在两个缺陷。 首先,它们依赖于预先确定的数据域(例如,数据源、任务类型),这可能无法捕捉关键的语义细微差别,从而导致性能不佳。其次,这些方法会随着域数量的增加而扩展,计算量过大。我们通过 R&B 框架应对这些挑战。该框架基于语义相似性对训练数据进行重新划分(重组),以创建更细粒度的域,并利用由训练过程中获得的域梯度引起的 Gram 矩阵有效地优化数据组合(平衡)。与先前的研究不同,它无需额外的计算即可获得损失或梯度等评估信息。我们在标准正则条件下分析了这项技术,并提供了理论见解,证明了 R&B 相对于非自适应混合方法的有效性。我们通过实证研究证明了 R&B 在五个不同数据集(涵盖自然语言、推理和多模态任务)上的有效性。仅需额外增加 0.01% 的计算开销,R&B 的性能便可匹敌甚至超越最先进的数据混合策略。
摘要: Data mixing strategies have successfully reduced the costs involved in training language models. While promising, such methods suffer from two flaws. First, they rely on predetermined data domains (e.g., data sources, task types), which may fail to capture critical semantic nuances, leaving performance on the table. Second, these methods scale with the number of domains in a computationally prohibitive way. We address these challenges via R&B, a framework that re-partitions training data based on semantic similarity (Regroup) to create finer-grained domains, and efficiently optimizes the data composition (Balance) by leveraging a Gram matrix induced by domain gradients obtained throughout training. Unlike prior works, it removes the need for additional compute to obtain evaluation information such as losses or gradients. We analyze this technique under standard regularity conditions and provide theoretical insights that justify R&B's effectiveness compared to non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness of R&B on five diverse datasets ranging from natural language to reasoning and multimodal tasks. With as little as 0.01% additional compute overhead, R&B matches or exceeds the performance of state-of-the-art data mixing strategies.
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 计算与语言 (cs.CL)
引用方式: arXiv:2505.00358 [cs.LG]
  (或者 arXiv:2505.00358v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.00358
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Albert Ge [查看电子邮件]
[v1] 星期四, 2025 年 5 月 1 日 07:08:19 UTC (2,893 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs.AI
cs.CL
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号