Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00073

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00073 (cs)
[提交于 2024年12月30日 ]

标题: 因果Transformer在没有位置编码的情况下通过附近嵌入的相似性产生位置信息

标题: Position Information Emerges in Causal Transformers Without Positional Encodings via Similarity of Nearby Embeddings

Authors:Chunsheng Zuo, Pavel Guerzhoy, Michael Guerzhoy
摘要: 具有因果注意力的 Transformer 可以在不使用位置编码的情况下解决需要位置信息的任务。 在这项工作中,我们提出并研究了关于如何在不使用显式位置编码的情况下存储位置信息的新假设。 我们观察到附近的嵌入比远处的嵌入更相似,这使得 Transformer 可以潜在地重构标记的位置。 我们表明,在具有因果注意力且无位置编码的 Transformer 模型中,这种模式可以在广泛的超参数范围内出现在训练和随机初始化的模型中。
摘要: Transformers with causal attention can solve tasks that require positional information without using positional encodings. In this work, we propose and investigate a new hypothesis about how positional information can be stored without using explicit positional encoding. We observe that nearby embeddings are more similar to each other than faraway embeddings, allowing the transformer to potentially reconstruct the positions of tokens. We show that this pattern can occur in both the trained and the randomly initialized Transformer models with causal attention and no positional encodings over a common range of hyperparameters.
评论: 将于2025年国际计算语言学会议(COLING 2025)上发表
主题: 计算与语言 (cs.CL) ; 机器学习 (cs.LG)
引用方式: arXiv:2501.00073 [cs.CL]
  (或者 arXiv:2501.00073v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00073
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Michael Guerzhoy [查看电子邮件]
[v1] 星期一, 2024 年 12 月 30 日 03:35:41 UTC (31,837 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号