计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月2日
]
标题: 面向局部性的并行解码用于高效的自回归图像生成
标题: Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation
摘要: 我们提出了一种局部感知并行解码(LPD)方法,以加速自回归图像生成。 传统的自回归图像生成依赖于下一个块的预测,这是一个内存密集型过程,导致高延迟。 现有工作尝试通过转向多块预测来并行化下一个块的预测以加速该过程,但仅实现了有限的并行化。 为了在保持生成质量的同时实现高并行化,我们引入了两项关键技术:(1)灵活并行化的自回归建模,这是一种新颖的架构,能够实现任意生成顺序和并行度。 它使用可学习的位置查询标记来指导目标位置的生成,同时确保同时生成的标记之间的相互可见性,以保证并行解码的一致性。(2)局部感知生成顺序,这是一种新的调度方式,通过形成组来最小化组内依赖性和最大化上下文支持,从而提高生成质量。 通过这些设计,我们在ImageNet类别条件生成上将生成步骤从256减少到20(256$\times$256 res.)和从1024减少到48(512$\times$512 res.),而不会降低质量,并且比之前的并行化自回归模型至少降低了3.4$\times$的延迟。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.