计算机科学 > 计算与语言
[提交于 2024年12月30日
]
标题: 因果Transformer在没有位置编码的情况下通过附近嵌入的相似性产生位置信息
标题: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings
摘要: 具有因果注意力的 Transformer 可以在不使用位置编码的情况下解决需要位置信息的任务。 在这项工作中,我们提出并研究了关于如何在不使用显式位置编码的情况下存储位置信息的新假设。 我们观察到附近的嵌入比远处的嵌入更相似,这使得 Transformer 可以潜在地重构标记的位置。 我们表明,在具有因果注意力且无位置编码的 Transformer 模型中,这种模式可以在广泛的超参数范围内出现在训练和随机初始化的模型中。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.