Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.03256

帮助 | 高级搜索

计算机科学 > 图形学

arXiv:2507.03256 (cs)
[提交于 2025年7月4日 (v1) ,最后修订 2025年7月23日 (此版本, v2)]

标题: MoDA:用于说话头生成的多模态扩散架构

标题: MoDA: Multi-modal Diffusion Architecture for Talking Head Generation

Authors:Xinyang Li, Gen Li, Zhihui Lin, Yichen Qian, GongXin Yao, Weinan Jia, Aowen Wang, Weihua Chen, Fan Wang
摘要: 以任意身份和语音音频生成对话头像仍然是虚拟元宇宙领域的一个关键问题。 最近,扩散模型因其强大的生成能力而成为该领域的流行生成技术。 然而,基于扩散的方法仍面临几个挑战:1)由变分自编码器(VAE)的隐式潜在空间引起的推理效率低下和视觉伪影,这使得扩散过程复杂化;2)由于多模态信息融合不足,导致缺乏真实的面部表情和头部动作。 在本文中,MoDA通过以下方式解决这些挑战:1)定义一个联合参数空间,连接运动生成和神经渲染,并利用流匹配来简化扩散学习;2)引入一种多模态扩散架构,对噪声运动、音频和辅助条件之间的相互作用进行建模,从而增强整体面部表现力。 此外,采用了一种从粗到细的融合策略,逐步整合不同模态,确保有效的特征融合。 实验结果表明,MoDA提高了视频的多样性、真实性和效率,使其适用于实际应用。 项目页面:https://lixinyyang.github.io/MoDA.github.io/
摘要: Talking head generation with arbitrary identities and speech audio remains a crucial problem in the realm of the virtual metaverse. Recently, diffusion models have become a popular generative technique in this field with their strong generation capabilities. However, several challenges remain for diffusion-based methods: 1) inefficient inference and visual artifacts caused by the implicit latent space of Variational Auto-Encoders (VAE), which complicates the diffusion process; 2) a lack of authentic facial expressions and head movements due to inadequate multi-modal information fusion. In this paper, MoDA handles these challenges by: 1) defining a joint parameter space that bridges motion generation and neural rendering, and leveraging flow matching to simplify diffusion learning; 2) introducing a multi-modal diffusion architecture to model the interaction among noisy motion, audio, and auxiliary conditions, enhancing overall facial expressiveness. In addition, a coarse-to-fine fusion strategy is employed to progressively integrate different modalities, ensuring effective feature fusion. Experimental results demonstrate that MoDA improves video diversity, realism, and efficiency, making it suitable for real-world applications. Project Page: https://lixinyyang.github.io/MoDA.github.io/
评论: 12页,7图
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.03256 [cs.GR]
  (或者 arXiv:2507.03256v2 [cs.GR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.03256
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xinyang Li [查看电子邮件]
[v1] 星期五, 2025 年 7 月 4 日 02:25:10 UTC (4,614 KB)
[v2] 星期三, 2025 年 7 月 23 日 07:07:10 UTC (9,347 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs.CV
cs.GR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号