计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月3日
]
标题: 任何I2V:使用运动控制动画任意条件图像
标题: AnyI2V: Animating Any Conditional Image with Motion Control
摘要: 最近在视频生成方面的进展,特别是扩散模型的发展,推动了文本到视频(T2V)和图像到视频(I2V)合成的显著进步。 然而,在有效整合动态运动信号和灵活的空间约束方面仍存在挑战。 现有的T2V方法通常依赖于文本提示,这本质上缺乏对生成内容空间布局的精确控制。 相比之下,I2V方法受其对真实图像的依赖限制,这限制了合成内容的可编辑性。 尽管一些方法结合了ControlNet以引入基于图像的条件,但它们通常缺乏明确的运动控制,并且需要计算成本高昂的训练。 为了解决这些限制,我们提出了AnyI2V,这是一种无需训练的框架,可以使用用户定义的运动轨迹为任何条件图像生成动画。 AnyI2V支持更广泛的模态作为条件图像,包括ControlNet不支持的数据类型,如网格和点云,从而实现更灵活和多用途的视频生成。 此外,它支持混合条件输入,并通过LoRA和文本提示实现风格迁移和编辑。 大量实验表明,所提出的AnyI2V表现出优越的性能,并在空间和运动控制的视频生成中提供了新的视角。 代码可在https://henghuiding.com/AnyI2V/ 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.