Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.00562

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.00562 (cs)
[提交于 2025年5月31日 ]

标题: SEED:一种用于基于扩散模型的顺序面部属性编辑的基准数据集

标题: SEED: A Benchmark Dataset for Sequential Facial Attribute Editing with Diffusion Models

Authors:Yule Zhu, Ping Liu, Zhedong Zheng, Wei Liu
摘要: 扩散模型最近使得在广泛的语义属性上实现精确且照片级真实的面部编辑成为可能。除了单步修改之外,现在有一类不断增长的应用需求能够分析和跟踪逐步编辑序列的能力,例如头发、化妆或配饰的分步变化。然而,顺序编辑在编辑归因和检测鲁棒性方面引入了重大挑战,进一步由于缺乏专门为此任务设计的大规模、精细标注的数据集而变得更加复杂。我们介绍了 SEED(Sequentially Edited facE Dataset,顺序编辑人脸数据集),这是一个通过最先进的扩散模型构建的大规模顺序编辑人脸数据集。SEED 包含超过 90,000 张具有一个到四个连续属性修改的面部图像,这些图像是使用多样化的基于扩散的编辑管道(LEdits、SDXL、SD3)生成的。每张图像都带有详细的编辑序列、属性掩码和提示,以促进关于顺序编辑跟踪、视觉来源分析和操作鲁棒性评估的研究。为了对该任务进行基准测试,我们提出了 FAITH(frequency-aware transformer-based model,基于频率感知变换器的模型),该模型结合高频线索以增强对细微顺序变化的敏感性。全面的实验,包括多种频域方法的系统比较,证明了 FAITH 的有效性以及 SEED 所带来的独特挑战。SEED 提供了一个具有挑战性和灵活性的资源,用于大规模研究基于扩散的渐进式编辑。数据集和代码将在以下地址公开发布:https://github.com/Zeus1037/SEED。
摘要: Diffusion models have recently enabled precise and photorealistic facial editing across a wide range of semantic attributes. Beyond single-step modifications, a growing class of applications now demands the ability to analyze and track sequences of progressive edits, such as stepwise changes to hair, makeup, or accessories. However, sequential editing introduces significant challenges in edit attribution and detection robustness, further complicated by the lack of large-scale, finely annotated benchmarks tailored explicitly for this task. We introduce SEED, a large-scale Sequentially Edited facE Dataset constructed via state-of-the-art diffusion models. SEED contains over 90,000 facial images with one to four sequential attribute modifications, generated using diverse diffusion-based editing pipelines (LEdits, SDXL, SD3). Each image is annotated with detailed edit sequences, attribute masks, and prompts, facilitating research on sequential edit tracking, visual provenance analysis, and manipulation robustness assessment. To benchmark this task, we propose FAITH, a frequency-aware transformer-based model that incorporates high-frequency cues to enhance sensitivity to subtle sequential changes. Comprehensive experiments, including systematic comparisons of multiple frequency-domain methods, demonstrate the effectiveness of FAITH and the unique challenges posed by SEED. SEED offers a challenging and flexible resource for studying progressive diffusion-based edits at scale. Dataset and code will be publicly released at: https://github.com/Zeus1037/SEED.
主题: 计算机视觉与模式识别 (cs.CV) ; 多媒体 (cs.MM)
引用方式: arXiv:2506.00562 [cs.CV]
  (或者 arXiv:2506.00562v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.00562
通过 DataCite 发表的 arXiv DOI

提交历史

来自: YuL Zhu [查看电子邮件]
[v1] 星期六, 2025 年 5 月 31 日 13:39:45 UTC (16,255 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.MM

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号