计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月5日
]
标题: 使用频率分布CycleGAN进行图像翻译的潜在表示学习
标题: Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN
摘要: 本文介绍了Fd-CycleGAN,这是一种图像到图像(I2I)翻译框架,通过增强潜在表示学习来逼近真实数据分布。 在CycleGAN的基础上,我们的方法集成了局部邻域编码(LNE)和频率感知监督,以捕捉细粒度的局部像素语义,同时保留来自源领域的结构一致性。 我们采用基于分布的损失度量,包括KL/JS散度和基于日志的相似性度量,以显式量化真实图像和生成图像分布在空间和频率域中的对齐程度。 为了验证Fd-CycleGAN的有效性,我们在多样化的数据集上进行了实验——Horse2Zebra、Monet2Photo和一个合成增强的Strike-off数据集。 与基线CycleGAN和其他最先进的方法相比,我们的方法在感知质量、更快的收敛性和改进的模式多样性方面表现出色,尤其是在低数据情况下。 通过有效捕捉局部和全局分布特征,Fd-CycleGAN实现了更视觉一致和语义一致的翻译。 我们的结果表明,频率引导的潜在学习显著提高了图像翻译任务中的泛化能力,在文档修复、艺术风格迁移和医学图像合成中具有前景应用。 我们还提供了与基于扩散的生成模型的比较见解,突出了我们轻量级对抗方法在训练效率和定性输出方面的优势。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.