计算机科学 > 机器学习
[提交于 2025年5月1日
]
标题: R&B:域重组和数据混合平衡,实现高效的基础模型训练
标题: R&B: Domain Regrouping and Data Mixture Balancing for Efficient Foundation Model Training
摘要: 数据混合策略已成功降低语言模型训练的成本。尽管这些方法前景光明,但它们也存在两个缺陷。 首先,它们依赖于预先确定的数据域(例如,数据源、任务类型),这可能无法捕捉关键的语义细微差别,从而导致性能不佳。其次,这些方法会随着域数量的增加而扩展,计算量过大。我们通过 R&B 框架应对这些挑战。该框架基于语义相似性对训练数据进行重新划分(重组),以创建更细粒度的域,并利用由训练过程中获得的域梯度引起的 Gram 矩阵有效地优化数据组合(平衡)。与先前的研究不同,它无需额外的计算即可获得损失或梯度等评估信息。我们在标准正则条件下分析了这项技术,并提供了理论见解,证明了 R&B 相对于非自适应混合方法的有效性。我们通过实证研究证明了 R&B 在五个不同数据集(涵盖自然语言、推理和多模态任务)上的有效性。仅需额外增加 0.01% 的计算开销,R&B 的性能便可匹敌甚至超越最先进的数据混合策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.