计算机科学 > 机器学习
[提交于 2025年7月13日
]
标题: 压缩计算:通用与问题的玩具模型中的密集电路
标题: Compressed Computation: Dense Circuits in a Toy Model of the Universal-AND Problem
摘要: 神经网络能够实现叠加——表示的特征数量超过维度数量。 最近的研究考虑了计算而非存储的类似概念,并提出了理论构造。 但迄今为止,很少有研究探讨这些电路是否可以在实践中被学习。 在本工作中,我们研究了一个用于通用-AND问题的玩具模型,该模型计算所有$m\choose 2$对$m$稀疏输入的AND。 决定非线性激活数量的隐藏维度受到限制,迫使模型找到一种计算高效的电路,称为压缩计算。 我们发现训练过程找到了一个简单的解决方案,该方案不对应于理论构造。 它完全密集——每个神经元都对每个输出做出贡献。 该解决方案自然地随维度扩展,以误差率为代价换取神经元效率。 它对稀疏性的变化和其他关键参数同样具有鲁棒性,并且可以自然地扩展到其他布尔操作和布尔电路。 我们详细解释了找到的解决方案,并计算了为什么在低稀疏性下它比理论构造更高效。 我们的发现揭示了模型喜欢形成的电路类型以及叠加表示的灵活性。 这有助于更广泛地理解网络电路和可解释性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.