Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2510.00504

帮助 | 高级搜索

统计学 > 机器学习

arXiv:2510.00504 (stat)
[提交于 2025年10月1日 ]

标题: 通用压缩理论:彩票假设与超多项式扩展定律

标题: A universal compression theory: Lottery ticket hypothesis and superpolynomial scaling laws

Authors:Hong-Yi Wang, Di Luo, Tomaso Poggio, Isaac L. Chuang, Liu Ziyin
摘要: 在训练大规模模型时,性能通常根据一个缓慢的幂律随着参数数量和数据集大小而变化。 一个基本的理论和实际问题是,是否可以用显著更小的模型和大量更少的数据实现相当的性能。 在本工作中,我们提供了积极且建设性的答案。 我们证明,一个关于$d$个对象的通用排列不变函数可以渐近地压缩为一个关于$\operatorname{polylog} d$个对象的函数,误差趋于零。 这个定理得出两个关键结论:(Ia) 一个大型神经网络可以被压缩为多项对数宽度,同时保持其学习动力学;(Ib) 一个大型数据集可以被压缩为多项对数规模,同时保持对应模型的损失景观不变。 (Ia) 直接建立了\textit{动态的}抽奖券假设的证明,该假设指出任何普通网络都可以被强烈压缩,使得学习动力学和结果保持不变。 (Ib) 表明形式为$L\sim d^{-\alpha}$的神经缩放定律可以被提升到任意快速的幂律衰减,最终达到$\exp(-\alpha' \sqrt[m]{d})$。
摘要: When training large-scale models, the performance typically scales with the number of parameters and the dataset size according to a slow power law. A fundamental theoretical and practical question is whether comparable performance can be achieved with significantly smaller models and substantially less data. In this work, we provide a positive and constructive answer. We prove that a generic permutation-invariant function of $d$ objects can be asymptotically compressed into a function of $\operatorname{polylog} d$ objects with vanishing error. This theorem yields two key implications: (Ia) a large neural network can be compressed to polylogarithmic width while preserving its learning dynamics; (Ib) a large dataset can be compressed to polylogarithmic size while leaving the loss landscape of the corresponding model unchanged. (Ia) directly establishes a proof of the \textit{dynamical} lottery ticket hypothesis, which states that any ordinary network can be strongly compressed such that the learning dynamics and result remain unchanged. (Ib) shows that a neural scaling law of the form $L\sim d^{-\alpha}$ can be boosted to an arbitrarily fast power law decay, and ultimately to $\exp(-\alpha' \sqrt[m]{d})$.
评论: 预印本
主题: 机器学习 (stat.ML) ; 无序系统与神经网络 (cond-mat.dis-nn); 信息论 (cs.IT); 机器学习 (cs.LG)
引用方式: arXiv:2510.00504 [stat.ML]
  (或者 arXiv:2510.00504v1 [stat.ML] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.00504
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Liu Ziyin [查看电子邮件]
[v1] 星期三, 2025 年 10 月 1 日 04:35:23 UTC (3,662 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
stat.ML
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cond-mat
cond-mat.dis-nn
cs
cs.IT
cs.LG
math
math.IT
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号