计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 运动感知视频生成模型
标题: Motion aware video generative model
摘要: 基于扩散的视频生成技术的最新进展在视觉内容和语义连贯性方面取得了前所未有的质量。 然而,当前的方法主要依赖于从大量数据集中进行统计学习,而没有显式地对运动的底层物理特性进行建模,导致了细微但可感知的非物理伪影,从而降低了生成视频的真实感。 本文介绍了一种基于物理学的频域方法,以增强生成视频的物理合理性。 我们首先对各种物理运动(平移、旋转、缩放)在频域中的特征进行了系统分析,揭示了每种运动类型都表现出独特且可识别的频谱特征。 在此理论基础上,我们提出了两个互补的组件:(1) 一种物理运动损失函数,用于量化并优化生成视频与理想频域运动模式的一致性;(2) 一个频域增强模块,通过零初始化策略逐步学习调整视频特征以符合物理运动约束,同时保留原始网络功能。 在多种视频扩散架构上的实验表明,我们的方法显著提升了运动质量和物理合理性,而不会损害视觉质量和语义一致性。 我们的频域物理运动框架能够有效适用于不同的视频生成架构,为将物理约束整合到基于深度学习的视频合成流水线中提供了一种原则性的方法。 这项工作旨在建立数据驱动模型与基于物理的运动模型之间的联系。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.