Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.03253

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2507.03253 (cs)
[提交于 2025年7月4日 (v1) ,最后修订 2025年7月8日 (此版本, v2)]

标题: RefineX:从专家引导的程序中大规模学习精炼预训练数据

标题: RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs

Authors:Baolong Bi, Shenghua Liu, Xingzhang Ren, Dayiheng Liu, Junyang Lin, Yiwei Wang, Lingrui Mei, Junfeng Fang, Jiafeng Guo, Xueqi Cheng
摘要: 大型语言模型(LLMs)的基础能力深受其预训练语料库质量的影响。 然而,在大规模提升数据质量方面仍是一个重大挑战,主要是由于精炼效果与处理效率之间的权衡。 尽管基于规则的过滤仍然是主流方法,但它通常在文档级别运行,并缺乏细化文档内特定内容所需的粒度。 受ProX等新兴工作的启发,我们提出了 $\textbf{RefineX}$,一种通过编程编辑任务实现大规模、精准细化预训练数据的新框架。 RefineX能够在可靠保持原始文本多样性和自然性的同时,高效且精细地进行数据细化。 RefineX的核心优势在于将高质量、专家指导的端到端细化结果提炼为最小化的基于删除的程序。 这个高精度的提炼流程用于训练一个高效且可靠的细化模型,该模型可以系统地在大规模上改进语料库中的每个实例。 我们在多个模型规模上进行了从头开始的预训练评估,发现RefineX在各种下游任务中始终优于在原始、过滤或另外细化的数据上训练的模型。 在750M模型上,RefineX在lighteval任务上平均提升了2.6%-7.2%,并且使用显著更少的训练标记实现了相当的性能。 进一步分析表明,RefineX以高效率和精确度可靠地提升了文本质量,优于之前的方法如端到端生成和Prox-C。 这些结果使RefineX成为现代LLM流水线中优化预训练数据的可扩展、有效且可靠解决方案。
摘要: The foundational capabilities of large language models (LLMs) are deeply influenced by the quality of their pre-training corpora. However, enhancing data quality at scale remains a significant challenge, primarily due to the trade-off between refinement effectiveness and processing efficiency. While rule-based filtering remains the dominant paradigm, it typically operates at the document level and lacks the granularity needed to refine specific content within documents. Inspired by emerging work such as ProX, we propose $\textbf{RefineX}$, a novel framework for large-scale, surgical refinement of pre-training data through programmatic editing tasks. RefineX enables efficient and fine-grained data refinement while reliably preserving the diversity and naturalness of raw text. The core strength of RefineX lies in distilling high-quality, expert-guided end-to-end refinement results into minimal edit-based deletion programs. This high-precision distillation pipeline is used to train an efficient and reliable refine model that can systematically improve every instance in the corpus at scale. We evaluate RefineX across from-scratch pre-training at multiple model scales and find that it consistently outperforms models trained on raw, filtered, or alternatively refined data across diverse downstream tasks. On the 750M model, RefineX yields 2.6%-7.2% average gains on lighteval tasks, and achieves comparable performance using significantly fewer training tokens. Further analysis shows that RefineX reliably enhances text quality with both high efficiency and precision, outperforming prior approaches such as end-to-end generation and Prox-C. These results position RefineX as a scalable, effective, and reliable solution for optimizing pre-training data in modern LLM pipelines.
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI)
引用方式: arXiv:2507.03253 [cs.CL]
  (或者 arXiv:2507.03253v2 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.03253
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Baolong Bi [查看电子邮件]
[v1] 星期五, 2025 年 7 月 4 日 02:19:58 UTC (1,302 KB)
[v2] 星期二, 2025 年 7 月 8 日 18:15:09 UTC (1,302 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号