计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 动态场景图预测
标题: FDSG: Forecasting Dynamic Scene Graphs
摘要: 动态场景图生成通过建模实体关系及其时间演化,将场景图生成从图像扩展到视频。然而,现有方法要么从观测帧中生成场景图而没有显式建模时间动态,要么仅预测关系同时假设实体标签和位置是静态的。这些限制阻碍了实体和关系动态的有效外推,限制了视频场景理解。我们提出了Forecasting Dynamic Scene Graphs(FDSG),这是一种新颖的框架,可以预测未观测帧的未来实体标签、边界框和关系,同时为观测帧生成场景图。我们的场景图预测模块利用查询分解和神经随机微分方程来建模实体和关系动态。一个时间聚合模块进一步通过交叉注意力集成预测和观测信息来优化预测。为了评估FDSG,我们引入了Scene Graph Forecasting,这是一个新的全未来场景图预测任务。Action Genome上的实验表明,FDSG在动态场景图生成、场景图预期和场景图预测方面优于最先进的方法。代码将在发表后发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.