计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
(v1)
,最后修订 2025年6月13日 (此版本, v2)]
标题: SG2VID:场景图实现视频合成的精细控制
标题: SG2VID: Scene Graphs Enable Fine-Grained Control for Video Synthesis
摘要: 外科模拟在培训新手外科医生方面起着至关重要的作用,可以加快他们的学习曲线并减少术中错误。然而,传统的模拟工具在提供必要的照片真实感和人体解剖学的变异性方面存在不足。为此,当前的方法正转向基于生成模型的模拟器。然而,这些方法主要集中在使用越来越复杂的条件来实现精确合成,而忽略了精细的人类控制方面。为了解决这一差距,我们介绍了SG2VID,这是首个利用场景图进行精确视频合成和精细人类控制的扩散模型。我们在三个公开数据集上展示了SG2VID的能力,这些数据集涵盖了白内障和胆囊切除手术。尽管SG2VID在定性和定量上都优于先前的方法,但它还能够实现精确的合成,对工具和解剖结构的大小和运动、新工具的引入以及整体场景布局提供准确的控制。我们还通过定性的方式展示了SG2VID如何用于生成增强,并通过一个实验展示了当训练集扩展为我们的合成视频时,它在下游阶段检测任务中的能力提升。最后,为了展示SG2VID保留人类控制的能力,我们与场景图交互以生成新的视频样本,展示重大但罕见的术中异常情况。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.