计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 多对多:统一多个视频和图像生成与操作任务的训练
标题: Many-for-Many: Unify the Training of Multiple Video and Image Generation and Manipulation Tasks
摘要: 扩散模型在许多视觉生成和操作任务中表现出令人印象深刻的效果。 许多现有方法专注于为特定任务训练模型,特别是文本到视频(T2V)生成,而许多其他工作则专注于微调预训练的T2V模型以用于图像到视频(I2V)、视频到视频(V2V)、图像和视频操作等任务。 然而,训练一个强大的T2V基础模型需要大量的高质量标注,这非常昂贵。 此外,许多现有模型只能执行一个或几个任务。 在这项工作中,我们引入了一个统一的框架,即many-for-many,它利用来自多种不同视觉生成和操作任务的可用训练数据来训练一个适用于这些不同任务的单一模型。 具体来说,我们设计了一个轻量级适配器来统一不同任务中的不同条件,然后采用联合图像-视频学习策略从零开始逐步训练模型。 我们的联合学习导致了一个具有改进视频生成性能的统一视觉生成和操作模型。 此外,我们将深度图作为条件引入,以帮助我们的模型更好地感知视觉生成中的3D空间。 我们的两种模型版本使用了不同的模型大小(8B 和 2B),每种都可以执行超过10种不同的任务。 特别是,与开源甚至商业引擎相比,我们的8B模型在视频生成任务中表现出高度竞争力。 我们的模型和源代码可在https://github.com/leeruibin/MfM.git获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.