计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月26日
]
标题: XVerse:通过DiT调制实现身份和语义属性的一致多主体控制
标题: XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation
摘要: 在文本到图像生成中,对主体身份和语义属性(姿态、风格、光照)实现细粒度控制,尤其是对于多个主体,通常会损害扩散变换器(DiTs)的可编辑性和连贯性。 许多方法会引入伪影或遭受属性纠缠。 为克服这些挑战,我们提出了一种新颖的多主体可控生成模型 XVerse。 通过将参考图像转换为针对特定标记的文本流调制偏移量,XVerse 允许对特定主体进行精确且独立的控制,而不会干扰图像潜在表示或特征。 因此,XVerse 提供了高保真、可编辑的多主体图像合成,并对每个主体的特性及语义属性具有强大的控制能力。 这一进展显著提升了个性化和复杂场景的生成能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.