计算机科学 > 计算与语言
[提交于 2025年1月3日
(v1)
,最后修订 2025年3月29日 (此版本, v3)]
标题: 领域专业化与模型大小之间的相互作用
标题: The interplay between domain specialization and model size
摘要: 语言模型的缩放定律通常关注从头开始训练时找到最佳模型大小和标记数量。 然而,由于从随机初始化的权重训练模型时需要大量数据,达到这种最佳平衡需要大量的计算资源。 持续预训练提供了一种成本效益更高的替代方案,利用预训练模型的计算投入来融入新知识,而无需大量新数据。 最近的研究表明,数据质量会影响缩放定律中的常数,从而改变最佳参数-标记分配比例。 基于这一见解,我们在计算受限的情况下,研究了持续预训练中领域专业化与模型大小之间的相互作用。 我们的目标是确定这种场景下的最佳训练制度,并检测这种相互作用中的模式,这些模式可以在不同模型大小和领域中进行推广。 为了比较通用和专业训练,我们过滤了一个基于网络的数据集,以提取来自三个领域:法律、医学和会计的数据。 我们在未过滤和过滤后的数据集上对15亿、30亿、70亿和140亿参数的模型进行了预训练,然后在领域特定的考试上评估了它们的性能。 结果表明,随着模型规模的增加,专业模型的表现优于通用模型,同时所需的训练计算更少。 此外,它们日益提高的计算效率导致了之前学到的知识遗忘减少。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.