计算机科学 > 机器学习
[提交于 2025年1月30日
]
标题: OT-Transformer:具有最优传输正则化的连续时间Transformer架构
标题: OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization
摘要: Transformer在众多任务中取得了最先进的性能。 在本文中,我们提出了Transformer的连续时间公式。 具体来说,我们考虑一个由Transformer块参数化的动力系统。 我们利用最优传输理论来正则化训练问题,这增强了训练的稳定性并提高了模型的泛化能力。 此外,我们在理论上证明了这种正则化是必要的,因为它促进了解的唯一性和规则性。 我们的模型具有灵活性,几乎任何现有的Transformer架构都可以被采用来构建动力系统,只需对现有代码进行轻微修改。 我们在受自然语言处理、图像分类和点云分类启发的任务上进行了广泛的数值实验。 我们的实验结果表明,所提出的方法改进了其离散对应方法的性能,并优于相关比较模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.