计算机科学 > 计算机视觉与模式识别
[提交于 2025年9月4日
]
标题: 人体动作视频生成:综述
标题: Human Motion Video Generation: A Survey
摘要: 人体动作视频生成由于其广泛的应用而引起了研究界的广泛关注,使得诸如逼真歌唱头或能够随着音乐流畅舞蹈的动态虚拟人等创新成为可能。然而,该领域的现有综述主要关注个别方法,缺乏对整个生成过程的全面概述。本文通过提供对人体动作视频生成的深入综述来弥补这一空白,涵盖了十余个子任务,并详细描述了生成过程的五个关键阶段:输入、动作规划、动作视频生成、优化和输出。值得注意的是,这是首个讨论大型语言模型在增强人体动作视频生成方面的潜力的综述。我们的综述回顾了人体动作视频生成在三个主要模态:视觉、文本和音频方面的最新发展和技术趋势。通过涵盖两百多篇论文,我们提供了该领域的全面概述,并突出了推动重大技术突破的关键作品。本综述的目标是揭示人体动作视频生成的前景,并作为推进数字人类全面应用的宝贵资源。本综述中所审查的模型的完整列表可在我们的仓库 https://github.com/Winn1y/Awesome-Human-Motion-Video-Generation 中找到。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.