计算机科学 > 机器学习
[提交于 2025年10月18日
]
标题: 通过带有$L_1$先验的正则化Wasserstein邻近算子的稀疏Transformer架构
标题: Sparse Transformer Architectures via Regularized Wasserstein Proximal Operator with $L_1$ Prior
摘要: 在本工作中,我们提出了一种稀疏变换器架构,该架构将关于底层数据分布的先验信息直接整合到神经网络的变换器结构中。 该模型的设计受到一个特殊的最优传输问题的启发,即正则化的Wasserstein近似算子,该算子具有闭式解,并被证明是变换器架构的一种特殊表示形式。 与经典的基于流的模型相比,所提出的方法改善了优化问题的凸性特性,并促进了生成样本的稀疏性。 通过理论分析和数值实验,包括在生成建模和贝叶斯逆问题中的应用,我们证明了稀疏变换器在达到目标分布方面比经典的神经ODE方法具有更高的准确性和更快的收敛速度。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.