计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月13日
]
标题: TRACE:从多视角视频中学习3D高斯物理动力学
标题: TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos
摘要: 在本文中,我们旨在仅从动态多视角视频中建模3D场景的几何、外观和物理信息,而无需任何人工标签。 通过利用物理信息损失作为软约束或将简单的物理模型集成到神经网络中,现有工作往往无法学习复杂的运动物理规律,或者这样做需要额外的标签,如物体类型或掩码。 我们提出了一种名为TRACE的新框架来建模复杂动态3D场景的运动物理规律。 我们方法的关键创新之处在于,通过将每个3D点表示为具有大小和方向的刚性粒子,我们直接为每个粒子学习一个平移旋转动力学系统,显式估计一组完整的物理参数来控制粒子随时间的运动。 在三个现有的动态数据集和一个新创建的具有挑战性的合成数据集上的大量实验表明,我们的方法在未来的帧外推任务中优于基线方法。 我们框架的一个优点是,只需通过聚类学习到的物理参数就可以轻松分割多个对象或部分。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.