计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月7日
]
标题: MoDiT:使用扩散变换器学习高度一致的3D运动系数以生成说话头像
标题: MoDiT: Learning Highly Consistent 3D Motion Coefficients with Diffusion Transformer for Talking Head Generation
摘要: 音频驱动的说话头部生成对于虚拟助手、视频游戏和电影等应用至关重要,其中自然的嘴唇运动是关键。 尽管在这一领域取得了进展,但在生成一致且逼真的面部动画方面仍存在挑战。 现有方法通常基于生成对抗网络(GANs)或基于UNet的扩散模型,面临三个主要限制:(i) 由于时间约束较弱导致的时间抖动,造成帧不一致;(ii) 由于缺乏足够的三维信息提取导致的身份漂移,进而导致面部身份保存不佳;以及(iii) 由于对真实眨眼动态建模不足导致的不自然眨眼行为。 为了解决这些问题,我们提出了MoDiT,一种将三维可变形模型(3DMM)与基于扩散的Transformer相结合的新框架。 我们的贡献包括:(i) 一种分层去噪策略,结合改进的时间注意力和有偏的自注意力/交叉注意力机制,使模型能够优化嘴唇同步并逐步增强全脸一致性,有效缓解时间抖动。 (ii) 集成3DMM系数以提供显式的空间约束,确保准确的三维引导光流预测,并利用Wav2Lip结果改善嘴唇同步,从而保持身份一致性。 (iii) 一种改进的眨眼策略,用于建模自然的眼部运动,具有更平滑和逼真的眨眼行为。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.