计算机科学 > 图形学
[提交于 2025年7月4日
(v1)
,最后修订 2025年7月23日 (此版本, v2)]
标题: MoDA:用于说话头生成的多模态扩散架构
标题: MoDA: Multi-modal Diffusion Architecture for Talking Head Generation
摘要: 以任意身份和语音音频生成对话头像仍然是虚拟元宇宙领域的一个关键问题。 最近,扩散模型因其强大的生成能力而成为该领域的流行生成技术。 然而,基于扩散的方法仍面临几个挑战:1)由变分自编码器(VAE)的隐式潜在空间引起的推理效率低下和视觉伪影,这使得扩散过程复杂化;2)由于多模态信息融合不足,导致缺乏真实的面部表情和头部动作。 在本文中,MoDA通过以下方式解决这些挑战:1)定义一个联合参数空间,连接运动生成和神经渲染,并利用流匹配来简化扩散学习;2)引入一种多模态扩散架构,对噪声运动、音频和辅助条件之间的相互作用进行建模,从而增强整体面部表现力。 此外,采用了一种从粗到细的融合策略,逐步整合不同模态,确保有效的特征融合。 实验结果表明,MoDA提高了视频的多样性、真实性和效率,使其适用于实际应用。 项目页面:https://lixinyyang.github.io/MoDA.github.io/
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.