计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月4日
(v1)
,最后修订 2025年7月8日 (此版本, v2)]
标题: StreamDiT:实时流式文本到视频生成
标题: StreamDiT: Real-Time Streaming Text-to-Video Generation
摘要: 最近,通过将基于Transformer的扩散模型扩展到数十亿参数,文本到视频(T2V)生成取得了重大进展,可以生成高质量的视频。 然而,现有模型通常只能离线生成短片段,限制了其在交互式和实时应用中的使用。 本文通过提出StreamDiT,一种流式视频生成模型,解决了这些挑战。 StreamDiT的训练基于流匹配,通过添加一个移动缓冲区进行训练。 我们设计了不同缓冲帧分块方案的混合训练,以提高内容一致性和视觉质量。 StreamDiT建模基于具有可变时间嵌入和窗口注意力的adaLN DiT。 为了实践所提出的方法,我们训练了一个具有40亿参数的StreamDiT模型。 此外,我们提出了一种针对StreamDiT的多步骤蒸馏方法。 在选定的分块方案的每个段中进行采样蒸馏。 蒸馏后,总函数评估次数(NFEs)减少到缓冲区中块的数量。 最后,我们的蒸馏模型在单个GPU上达到16 FPS的实时性能,可以以512p分辨率生成视频流。 我们通过定量指标和人类评估来评估我们的方法。 我们的模型实现了实时应用,例如 流式生成、交互式生成和视频到视频。 我们在项目网站上提供了视频结果和更多示例:https://cumulo-autumn.github.io/StreamDiT/
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.