计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月1日
]
标题: SkyReels-音频:视频扩散变换器中的全方位音频条件化说话人肖像
标题: SkyReels-Audio: Omni Audio-Conditioned Talking Portraits in Video Diffusion Transformers
摘要: 受文本、图像和视频等多种模态输入引导的音频驱动的可操控肖像生成与编辑仍是一个未被充分探索的领域。本文提出了一种名为SkyReels-Audio的统一框架,用于合成高保真且时间上一致的可操控肖像视频。该框架基于预训练的视频扩散变换器构建,支持无限长度的生成与编辑,同时通过多模态输入实现多样化且可控的条件设置。我们采用混合课程学习策略逐步对齐音频与面部运动,从而实现对长视频序列的细粒度多模态控制。为了增强局部面部一致性,我们引入了面部掩码损失和音频引导的无分类器引导机制。滑动窗口去噪方法进一步融合了时间片段中的潜在表示,确保在扩展时间和多样身份下具有视觉保真度和时间一致性。更重要的是,我们构建了一个专用的数据管道,用于整理同步的音频、视频和文本描述组成的高质量三元组。综合基准评估表明,SkyReels-Audio在唇音同步准确性、身份一致性以及逼真的面部动态方面表现出色,尤其是在复杂和具有挑战性的条件下。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.