计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月14日
(v1)
,最后修订 2025年7月21日 (此版本, v2)]
标题: 从衣橱到画布:衣橱多联画LoRA用于局部可控的人像生成
标题: From Wardrobe to Canvas: Wardrobe Polyptych LoRA for Part-level Controllable Human Image Generation
摘要: 最近的扩散模型通过学习特定主题实现个性化,使学习到的属性能够整合到生成的图像中。 然而,由于需要精确且一致的属性保留(例如身份、服装细节),个性化的人像生成仍然具有挑战性。 现有的以主题驱动的图像生成方法通常需要(1)在推理时使用少量图像对每个新主题进行微调,或者(2)大规模数据集训练以实现泛化。 这两种方法在计算上都很昂贵,对于实时应用不切实际。 为了解决这些限制,我们提出了Wardrobe Polyptych LoRA,一种用于个性化人像生成的新颖部分级可控模型。 通过仅训练LoRA层,我们的方法在推理时消除了计算负担,同时确保了未见过的主题的高质量合成。 我们的关键思想是将生成条件化为主题的衣橱,并利用空间参考来减少信息丢失,从而提高保真度和一致性。 此外,我们引入了一种选择性主题区域损失,这鼓励模型在训练期间忽略一些参考图像。 我们的损失确保生成的图像更好地与文本提示对齐,同时保持主题完整性。 值得注意的是,我们的Wardrobe Polyptych LoRA在推理阶段不需要额外参数,并使用仅在少量训练样本上训练的单一模型进行生成。 我们构建了一个新的数据集和基准,专门针对个性化人像生成。 大量实验表明,我们的方法在保真度和一致性方面显著优于现有技术,实现了真实且身份保留的全身合成。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.