计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
(v1)
,最后修订 2025年6月11日 (此版本, v2)]
标题: ByteMorph:基准测试带有非刚性运动的指令引导图像编辑
标题: ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
摘要: 使用指令来编辑图像以反映非刚性运动、相机视角变化、物体变形、人体关节活动以及复杂交互,这一问题在计算机视觉领域具有挑战性且尚未被充分研究。 现有的方法和数据集大多侧重于静态场景或刚性变换,限制了它们处理涉及动态运动的表达性编辑的能力。 为了解决这一问题,我们提出了 ByteMorph,这是一种基于指令的图像编辑综合框架,重点在于非刚性运动。 ByteMorph 包含一个大规模数据集 ByteMorph-6M 和一个强大的基准模型 ByteMorpher,该模型基于扩散Transformer(DiT)构建。 ByteMorph-6M 包含超过600万对高分辨率图像编辑样本用于训练,并附带了一个精心设计的评估基准 ByteMorph-Bench。 两者都涵盖了多样化环境中各种类型的非刚性运动、人体形态以及物体类别。 数据集通过运动引导的数据生成、分层合成技术以及自动化标题生成构建,确保多样性、真实性和语义一致性。 此外,我们还对来自学术界和商业领域的近期基于指令的图像编辑方法进行了全面评估。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.