Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.10218

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.10218 (cs)
[提交于 2025年7月14日 ]

标题: 通过噪声优化实现粘性校正流动的直线化

标题: Straighten Viscous Rectified Flow via Noise Optimization

Authors:Jimin Dai, Jiexi Yan, Jian Yang, Lei Luo
摘要: 重流操作旨在通过在噪声和图像之间构建确定性耦合,使校正流在训练期间的推理轨迹更加直线化,从而提高单步或少步生成中生成图像的质量。 然而,我们发现重流存在关键限制,特别是由于其构建的确定性耦合中的图像与真实图像之间的分布差距,导致无法快速生成高质量图像。 为解决这些不足,我们提出了一种新的替代方法,称为通过噪声优化的直化粘性校正流(VRFNO),这是一种结合编码器和神经速度场的联合训练框架。 VRFNO引入了两项关键创新:(1) 历史速度项,增强了轨迹区分度,使模型能够更准确地预测当前轨迹的速度,(2) 通过重新参数化进行噪声优化,形成与真实图像的优化耦合,然后用于训练,有效缓解了重流局限性导致的误差。 在合成数据和不同分辨率的真实数据集上的综合实验表明,VRFNO显著缓解了重流的局限性,在单步和少步生成任务中均达到了最先进的性能。
摘要: The Reflow operation aims to straighten the inference trajectories of the rectified flow during training by constructing deterministic couplings between noises and images, thereby improving the quality of generated images in single-step or few-step generation. However, we identify critical limitations in Reflow, particularly its inability to rapidly generate high-quality images due to a distribution gap between images in its constructed deterministic couplings and real images. To address these shortcomings, we propose a novel alternative called Straighten Viscous Rectified Flow via Noise Optimization (VRFNO), which is a joint training framework integrating an encoder and a neural velocity field. VRFNO introduces two key innovations: (1) a historical velocity term that enhances trajectory distinction, enabling the model to more accurately predict the velocity of the current trajectory, and (2) the noise optimization through reparameterization to form optimized couplings with real images which are then utilized for training, effectively mitigating errors caused by Reflow's limitations. Comprehensive experiments on synthetic data and real datasets with varying resolutions show that VRFNO significantly mitigates the limitations of Reflow, achieving state-of-the-art performance in both one-step and few-step generation tasks.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.10218 [cs.CV]
  (或者 arXiv:2507.10218v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.10218
通过 DataCite 发表的 arXiv DOI
期刊参考: International Conference on Computer Vision 2025

提交历史

来自: Jimin Dai [查看电子邮件]
[v1] 星期一, 2025 年 7 月 14 日 12:35:17 UTC (7,279 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号