统计学 > 机器学习
[提交于 2025年10月1日
]
标题: 通用压缩理论:彩票假设与超多项式扩展定律
标题: A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws
摘要: 在训练大规模模型时,性能通常根据一个缓慢的幂律随着参数数量和数据集大小而变化。 一个基本的理论和实际问题是,是否可以用显著更小的模型和大量更少的数据实现相当的性能。 在本工作中,我们提供了积极且建设性的答案。 我们证明,一个关于$d$个对象的通用排列不变函数可以渐近地压缩为一个关于$\operatorname{polylog} d$个对象的函数,误差趋于零。 这个定理得出两个关键结论:(Ia) 一个大型神经网络可以被压缩为多项对数宽度,同时保持其学习动力学;(Ib) 一个大型数据集可以被压缩为多项对数规模,同时保持对应模型的损失景观不变。 (Ia) 直接建立了\textit{动态的}抽奖券假设的证明,该假设指出任何普通网络都可以被强烈压缩,使得学习动力学和结果保持不变。 (Ib) 表明形式为$L\sim d^{-\alpha}$的神经缩放定律可以被提升到任意快速的幂律衰减,最终达到$\exp(-\alpha' \sqrt[m]{d})$。
当前浏览上下文:
stat.ML
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.