计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
(v1)
,最后修订 2025年6月5日 (此版本, v3)]
标题: SViMo:手部与物体交互场景下用于视频和运动生成的同步扩散模型
标题: SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
摘要: 手-物交互(HOI)生成具有重要的应用潜力。然而,当前的3D HOI运动生成方法严重依赖预定义的3D物体模型和实验室捕获的运动数据,限制了其泛化能力。同时,HOI视频生成方法优先考虑像素级视觉保真度,往往牺牲了物理上的合理性。 认识到视觉外观和运动模式在现实世界中共享基本的物理规律,我们提出了一种新颖的框架,在同步扩散过程中结合视觉先验和动态约束,以同时生成HOI视频和运动。为了整合异构语义、外观和运动特征,我们的方法实现了三模态自适应调制来对齐特征,并结合3D全注意力来建模跨模态和模态内的依赖关系。 此外,我们引入了一个视觉感知的3D交互扩散模型,该模型直接从同步扩散输出生成显式的3D交互序列,然后将其反馈回来建立闭环反馈循环。这种架构消除了对手动物体模型或显式姿态指导的依赖,同时显著提高了视频与运动的一致性。 实验结果表明,我们的方法在生成高保真、动态合理的HOI序列方面优于最先进的方法,并且在未见过的真实场景中表现出显著的泛化能力。 项目页面见 https://github.com/Droliven/SViMo_project。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.