计算机科学 > 机器学习
[提交于 2024年12月21日
]
标题: KKANs:Kurkova-Kolmogorov-Arnold 网络及其学习动力学
标题: KKANs: Kurkova-Kolmogorov-Arnold Networks and Their Learning Dynamics
摘要: 受Kolmogorov-Arnold表示定理和Kurkova使用近似表示原则的启发,我们提出了Kurkova-Kolmogorov-Arnold网络(KKAN),这是一种新的两块结构,将基于多层感知器(MLP)的稳健内部函数与灵活的基函数线性组合作为外部函数相结合。我们首先证明了KKAN是一个通用逼近器,然后展示了它在科学机器学习应用中的多功能性,包括函数回归、物理信息机器学习(PIML)和算子学习框架。基准结果表明,在函数逼近和算子学习任务中,KKAN优于MLP和原始的Kolmogorov-Arnold网络(KAN),并且在PIML中达到与完全优化的MLP相当的性能。为了更好地理解新表示模型的行为,我们使用信息瓶颈理论分析了它们的几何复杂性和学习动力学,识别出所有类型架构中的三个通用学习阶段:拟合、过渡和扩散。我们发现几何复杂性和信噪比(SNR)之间存在强烈相关性,最佳泛化在扩散阶段实现。此外,我们提出了基于自缩放残差的注意力权重,以动态保持高SNR,确保均匀收敛和延长学习。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.