计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 长时域驾驶世界模型:跨粒度蒸馏方法
标题: LongDWM: Cross-Granularity Distillation for Building a Long-Term Driving World Model
摘要: 基于当前状态和动作,驱动世界模型用于通过视频生成来模拟未来。然而,当前的模型在预测长期未来时往往会出现严重的误差累积,这限制了它们的实际应用。近期的研究利用扩散变换器(Diffusion Transformer,DiT)作为驱动世界模型的主干以提高学习灵活性。然而,这些模型通常是在短小的视频片段(高帧率且时间较短)上进行训练的,在推理过程中,由于训练与推理之间的差距,多次展开生成难以产生一致且合理的长视频。 为此,我们提出了一些解决方案,构建了一个简单但有效的长期驱动世界模型。首先,我们将世界模型的学习分层解耦为大范围运动学习和双向连续运动学习。然后,考虑到驾驶场景的连续性,我们提出了一种简单的蒸馏方法,其中精细的视频流作为粗粒度流的自监督信号。该蒸馏设计旨在提升无限视频生成的一致性。粗粒度模块和细粒度模块协同工作,生成长时间且时间一致的视频。 在公共基准数据集NuScenes上,与最先进的前视图模型相比,我们的模型在生成110多帧的视频任务中,FVD(Fréchet Video Distance)提高了$27\%$,推理时间减少了$85\%$。更多视频(包括90秒时长)可在https://Wang-Xiaodong1899.github.io/longdwm/获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.