统计学 > 机器学习
[提交于 2025年10月16日
]
标题: 覆盖原则:预训练如何促进微调
标题: The Coverage Principle: How Pre-training Enables Post-Training
摘要: 语言模型在大规模文本语料库上进行预训练并在特定任务上进行微调时表现出惊人的能力,但预训练如何以及为何影响最终模型的成功仍知之甚少。值得注意的是,尽管预训练的成功通常通过交叉熵损失来量化,但交叉熵可能是下游性能的不良预测指标。相反,我们通过\emph{覆盖范围}的视角提供了一个理论观点,该指标衡量预训练模型对高质量响应的概率质量,并且对于后续训练和测试时缩放方法(如 Best-of-N)的成功是必要且充分的。我们的主要结果发展了对\emph{覆盖原则}的理解,这是一种现象,即下一个标记预测隐式地优化到具有良好覆盖性的模型。特别是,我们揭示了一种机制,解释了覆盖性在预测下游性能中的作用:\emph{覆盖率比交叉熵泛化得更快},避免对问题相关参数(如序列长度)的虚假依赖。我们还研究了具有可证明优势的实用算法干预措施,以提高覆盖性,包括(i)模型/检查点选择程序,(ii)梯度归一化方案,以及(iii)测试时的解码策略。
当前浏览上下文:
stat.ML
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.