计算机科学 > 机器学习
[提交于 2025年5月20日
]
标题: 更好的神经网络表达能力:细分单纯形
标题: Better Neural Network Expressivity: Subdividing the Simplex
摘要: 这项工作研究了ReLU神经网络的表达能力,重点是其深度。一系列先前的工作表明,$\lceil \log_2(n+1) \rceil$个隐藏层就足以计算$\mathbb{R}^n$上的所有连续分段线性(CPWL)函数。 Hertrich、Basu、Di Summa和Skutella(NeurIPS'21)推测,这一结果是最优的,即像最大函数这样的某些CPWL函数在$\mathbb{R}^n$上需要这种深度。 我们否定了这个猜想,并证明了$\lceil\log_3(n-1)\rceil+1$个隐藏层就足以计算$\mathbb{R}^n$上的所有CPWL函数。 证明中的一个关键步骤是,具有两个隐藏层的ReLU神经网络可以精确表示五个输入的最大函数。 更一般地,我们证明了$\lceil\log_3(n-2)\rceil+1$个隐藏层就足以计算$n\geq 4$个数的最大值。 我们的构造几乎匹配了 Averkov、Hojny 和 Merkert(ICLR'25)在特殊情况下(ReLU 网络且权重为小数时)的$\lceil\log_3(n)\rceil$下界。 这些构造可以通过单纯形到“更简单”多面体的多面体细分来获得几何解释。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.