计算机科学 > 机器学习
[提交于 2025年1月26日
]
标题: StagFormer:用于并行运行层的时间错位Transformer解码
标题: StagFormer: Time Staggering Transformer Decoding for RunningLayers In Parallel
摘要: 基于Transformer的语言模型中的标准解码过程本质上是顺序的,因为我们必须等待一个标记的嵌入通过网络中的所有层之后,才能开始生成下一个标记。 在本工作中,我们提出了一种新的架构StagFormer(交错Transformer),它沿时间轴交错执行,从而实现了在模型深度上并行化解码过程。 我们通过打破第$l$层中时间步$i$的标记表示对来自第$l-1$层直到时间步$i$的标记表示的依赖性来实现这一点。 相反,我们交错执行,并且只允许对直到时间步$i-1$的标记表示的依赖性。 Transformer的后续部分仍然可以访问前面部分的“丰富”表示,但仅限于那些滞后一个时间步的标记位置。 StagFormer允许模型的不同部分并行执行,在我们的模拟中解码速度潜在提升了33%而质量保持不变。 我们还探索了这种想法的许多自然变体。 我们展示了在内存有限的设置中,不同交错部分之间的权重共享如何更加实用。 我们展示了如何使用这种权重共享在推理过程中近似一个循环模型。 我们探讨了使用有限窗口注意力在不同部分之间传递信息的有效性,这有助于某些应用进一步降低延迟。 我们还探索并展示了这种交错思想在超过2个Transformer部分上的可扩展性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.