计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月6日
]
标题: 基于时间与身份互补学习的音频辅助人脸视频修复
标题: Audio-Assisted Face Video Restoration with Temporal and Identity Complementary Learning
摘要: 面部视频伴有音频已经成为我们日常生活的重要组成部分,但它们常常遭受复杂的退化。 大多数面部视频恢复方法忽略了视觉和音频特征之间的内在关联,尤其是在嘴部区域。 一些基于音频的面部视频恢复方法已被提出,但它们仅关注压缩伪影的去除。 在本文中,我们提出了一种通用的音频辅助面部视频恢复网络(GAVN),通过身份和时间互补学习来解决各种流媒体视频失真问题。 具体来说, GAVN首先在低分辨率空间中捕捉帧间时间特征以粗略恢复帧并节省计算成本。 然后,GAVN在高分辨率空间中借助音频信号和面部关键点提取帧内身份特征以恢复更多面部细节。 最后,重建模块整合时间特征和身份特征以生成高质量的面部视频。 实验结果表明,GAVN在面部视频压缩伪影去除、去模糊和超分辨率方面优于现有的最先进方法。 代码将在发表后发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.