计算机科学 > 计算机视觉与模式识别
[提交于 2025年4月3日
]
标题: 概念手术刀:基于组成表示移植的图像编辑
标题: Concept Lancet: Image Editing with Compositional Representation Transplant
摘要: 扩散模型广泛用于图像编辑任务。现有的编辑方法通常通过设计文本嵌入或分数空间中的编辑方向来设计表示操作过程。然而,这种方法面临一个关键挑战:过度估计编辑强度会损害视觉一致性,而低估它则无法完成编辑任务。值得注意的是,每张源图像可能需要不同的编辑强度,并且通过试错法寻找适当的强度成本高昂。为了解决这个挑战,我们提出了Concept Lancet(CoLan),这是一种针对基于扩散的图像编辑中原则性表示操作的零样本即插即用框架。在推理阶段,我们将源输入分解为潜在(文本嵌入或扩散分数)空间中收集的视觉概念表示的稀疏线性组合。这使我们可以准确估计每个图像中概念的存在情况,从而指导编辑过程。根据编辑任务(替换/添加/删除),我们执行自定义的概念移植过程以施加相应的编辑方向。为了充分建模概念空间,我们策划了一个概念表示数据集CoLan-150K,其中包含潜在字典中视觉术语和短语的各种描述和场景。在多个基于扩散的图像编辑基线上的实验表明,配备CoLan的方法在编辑效果和一致性保持方面达到了最先进的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.