计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月7日
]
标题: 语义帧插值
标题: Semantic Frame Interpolation
摘要: 基于给定的第一帧和最后一帧以及文本提示信息,生成不同长度的中间视频内容,具有重要的研究和应用潜力。 然而,传统的帧插值任务主要集中在帧数较少、无文本控制且第一帧和最后一帧差异较小的场景中。 最近的社区开发者利用了以万为代表的大型视频模型,赋予帧到帧的能力。 然而,这些模型只能生成固定数量的帧,并且在某些帧长度上常常无法产生满意的结果,而这种设置缺乏明确的官方定义和成熟的标准基准。 在本文中,我们首先从学术定义的角度提出了一种新的实用语义帧插值(SFI)任务,该任务涵盖了上述两种设置,并支持在多种帧率下进行推理。 为了实现这一目标,我们提出了一种基于万2.1的新SemFi模型,该模型结合了Mixture-of-LoRA模块,以确保在各种帧长限制下生成与控制条件一致的高一致性内容。 此外,我们提出了SFI-300K,这是首个专为SFI设计的通用数据集和基准。 为了支持这一点,我们从SFI的角度收集和处理数据,精心设计评估指标和方法,以多维方式评估模型性能,涵盖图像和视频,以及一致性、多样性等多个方面。 通过在SFI-300K上的大量实验,我们证明了我们的方法特别适合满足SFI任务的要求。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.