统计学 > 机器学习
[提交于 2018年10月22日
]
标题: 通过反向传播学习稀疏变换
标题: Learning sparse transformations through backpropagation
摘要: 深度学习架构中的许多变换都是稀疏连接的。 当这种变换无法手动设计时,可以通过纯反向传播进行学习,例如在注意力机制中。 然而,在学习过程中,这些稀疏结构通常以密集形式表示,因为我们事先不知道哪些元素最终会变为非零。 我们引入了自适应稀疏超层,这是一种参数化稀疏的学习稀疏变换的方法:即通过带有相关值的索引元组来表示。 为了克服这种离散结构带来的梯度缺失,我们引入了一种随机采样连接的方法,并在随机连接的计算图上进行反向传播。 为了证明这种方法可以使模型在真实数据上达到竞争性的性能,我们用它构建了两种架构。 首先,一种用于视觉分类的注意力机制。 其次,我们实现了一种可微排序方法:具体来说,是在仅知道正确顺序的情况下学习对未标记的MNIST数字进行排序。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.