计算机科学 > 计算与语言
[提交于 2025年7月4日
(v1)
,最后修订 2025年7月8日 (此版本, v2)]
标题: RefineX:从专家引导的程序中大规模学习精炼预训练数据
标题: RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs
摘要: 大型语言模型(LLMs)的基础能力深受其预训练语料库质量的影响。 然而,在大规模提升数据质量方面仍是一个重大挑战,主要是由于精炼效果与处理效率之间的权衡。 尽管基于规则的过滤仍然是主流方法,但它通常在文档级别运行,并缺乏细化文档内特定内容所需的粒度。 受ProX等新兴工作的启发,我们提出了 $\textbf{RefineX}$,一种通过编程编辑任务实现大规模、精准细化预训练数据的新框架。 RefineX能够在可靠保持原始文本多样性和自然性的同时,高效且精细地进行数据细化。 RefineX的核心优势在于将高质量、专家指导的端到端细化结果提炼为最小化的基于删除的程序。 这个高精度的提炼流程用于训练一个高效且可靠的细化模型,该模型可以系统地在大规模上改进语料库中的每个实例。 我们在多个模型规模上进行了从头开始的预训练评估,发现RefineX在各种下游任务中始终优于在原始、过滤或另外细化的数据上训练的模型。 在750M模型上,RefineX在lighteval任务上平均提升了2.6%-7.2%,并且使用显著更少的训练标记实现了相当的性能。 进一步分析表明,RefineX以高效率和精确度可靠地提升了文本质量,优于之前的方法如端到端生成和Prox-C。 这些结果使RefineX成为现代LLM流水线中优化预训练数据的可扩展、有效且可靠解决方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.