计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: DNAEdit:文本引导的修正流编辑中的直接噪声对齐
标题: DNAEdit: Direct Noise Alignment for Text-Guided Rectified Flow Editing
摘要: 利用大规模预训练文本到图像模型强大的生成能力,无训练方法已经展示了令人印象深刻的图像编辑结果。 基于扩散的传统方法以及最近基于修正流(RF)的方法通常通过逐渐向干净图像添加噪声来逆向合成轨迹,在此过程中,当前时间步的噪声潜在表示用于近似下一时间步的噪声潜在表示,从而引入累积漂移并降低重建准确性。 考虑到在RF中,噪声潜在表示是通过对每个时间步的高斯噪声和干净图像进行直接插值估计的这一事实,我们提出了直接噪声对齐(DNA),它直接在噪声域中精化所需的高斯噪声,显著减少了先前方法中的误差累积。 具体而言,DNA在每个时间步估计插值噪声潜在表示的速度场,并通过预测速度场与预期速度场之间的差异调整高斯噪声。 我们验证了DNA的有效性,并揭示了其与现有基于RF的反演方法的关系。 此外,我们引入了移动速度引导(MVG)以控制目标提示引导的生成过程,平衡图像背景保留和目标对象可编辑性。 DNA和MVG共同构成了我们提出的方法,即DNAEdit。 最后,我们介绍了DNA-Bench,一个长提示基准,用于评估先进图像编辑模型的性能。 实验结果表明,我们的DNAEdit在文本引导的编辑方法中取得了优于现有技术的性能。 代码和基准将在\href{ https://xiechenxi99.github.io/DNAEdit/}{https://xiechenxi99.github.io/DNAEdit/}处提供。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.