计算机科学 > 计算机视觉与模式识别
[提交于 2025年4月30日
(v1)
,最后修订 2025年7月15日 (此版本, v3)]
标题: Nexus-Gen:通过共享嵌入空间中的预填充自回归实现统一的图像理解、生成和编辑
标题: Nexus-Gen: Unified Image Understanding, Generation, and Editing via Prefilled Autoregression in Shared Embedding Space
摘要: 统一的多模态生成模型旨在整合图像理解和生成能力,在利用多模态语料库,特别是交错的文本-图像数据方面具有显著优势。然而,现有的统一模型在图像合成质量、自回归误差累积和图像编辑能力方面存在局限性。在本工作中,我们提出了Nexus-Gen,一种新颖的架构,它在一个共享的图像嵌入空间中统一了图像理解、生成和编辑任务。这个共享空间作为自回归和扩散模型之间的桥梁,无缝整合了它们在跨模态建模中的互补优势。为了减轻自回归嵌入预测过程中的严重误差累积,我们提出了一种新的预填充自回归策略,通过用可学习嵌入预填充输入序列来对齐训练-推理动态。在我们构建的包含2630万样本的大规模数据集上进行多阶段和多任务训练后,Nexus-Gen在涵盖图像理解、生成和编辑任务的评估基准上达到了最先进性能。所有模型、数据集和源代码都发布在https://github.com/modelscope/Nexus-Gen,以促进该领域的进一步发展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.