Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.06715

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.06715 (cs)
[提交于 2025年8月8日 ]

标题: Restage4D:从单个视频重新激活可变形3D重建

标题: Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video

Authors:Jixuan He, Chieh Hubert Lin, Lu Qi, Ming-Hsuan Yang
摘要: 创建可变形的3D内容随着文本到图像和图像到视频生成模型的兴起而受到越来越多的关注。 尽管这些模型为外观提供了丰富的语义先验,但它们难以捕捉真实4D场景合成所需的物理真实感和运动动力学。 相反,现实世界的视频可以提供难以幻觉的物理基础几何和关节线索。 提出一个问题: \textit{我们能否通过利用真实世界视频的运动先验来生成物理上一致的4D内容?}? 在本工作中,我们探索从单个视频重新激活可变形的3D场景的任务,使用原始序列作为监督信号来纠正合成运动产生的伪影。 我们引入了\textbf{Restage4D},一种用于视频条件4D重新布置的几何保持流程。 我们的方法使用视频回溯训练策略,通过共享的运动表示在真实基础视频和合成驱动视频之间建立时间桥梁。 我们进一步结合了一个遮挡感知的刚度损失和一个去遮挡回溯机制,以在具有挑战性的运动下提高结构和几何一致性。 我们在 DAVIS 和 PointOdyssey 上验证了 Restage4D ,展示了改进的几何一致性、运动质量和3D跟踪性能。 我们的方法不仅在新运动下保留了可变形结构,还能自动纠正生成模型引入的错误,揭示了视频先验在4D重新布置任务中的潜力。 源代码和训练好的模型将被发布。
摘要: Creating deformable 3D content has gained increasing attention with the rise of text-to-image and image-to-video generative models. While these models provide rich semantic priors for appearance, they struggle to capture the physical realism and motion dynamics needed for authentic 4D scene synthesis. In contrast, real-world videos can provide physically grounded geometry and articulation cues that are difficult to hallucinate. One question is raised: \textit{Can we generate physically consistent 4D content by leveraging the motion priors of the real-world video}? In this work, we explore the task of reanimating deformable 3D scenes from a single video, using the original sequence as a supervisory signal to correct artifacts from synthetic motion. We introduce \textbf{Restage4D}, a geometry-preserving pipeline for video-conditioned 4D restaging. Our approach uses a video-rewinding training strategy to temporally bridge a real base video and a synthetic driving video via a shared motion representation. We further incorporate an occlusion-aware rigidity loss and a disocclusion backtracing mechanism to improve structural and geometry consistency under challenging motion. We validate Restage4D on DAVIS and PointOdyssey, demonstrating improved geometry consistency, motion quality, and 3D tracking performance. Our method not only preserves deformable structure under novel motion, but also automatically corrects errors introduced by generative models, revealing the potential of video prior in 4D restaging task. Source code and trained models will be released.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.06715 [cs.CV]
  (或者 arXiv:2508.06715v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.06715
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jixuan He [查看电子邮件]
[v1] 星期五, 2025 年 8 月 8 日 21:31:51 UTC (21,846 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号