计算机科学 > 图形学
[提交于 2025年9月4日
]
标题: SMooGPT:使用大型语言模型的风格化运动生成
标题: SMooGPT: Stylized Motion Generation using Large Language Models
摘要: 风格化运动生成在计算机图形学中得到了积极研究,尤其是在扩散模型快速发展的推动下。这项任务的目标是生成一种新的运动,既尊重运动内容又符合所需的运动风格,例如“像猴子一样绕圈行走”。现有的研究尝试通过运动风格迁移或条件运动生成来解决这个问题。它们通常将运动风格嵌入到潜在空间中,并在潜在空间中隐式地引导运动。尽管取得了进展,但它们的方法存在可解释性差和控制能力有限、对新风格的泛化能力受限,以及由于公共风格化数据集中的强烈偏差,无法生成除“行走”之外的运动。在本文中,我们提出从推理-组合-生成的新视角来解决风格化运动生成问题,基于我们的观察:i)人类运动通常可以使用以身体部位为中心的自然语言有效描述,ii)大型语言模型(LLMs)表现出强大的理解和推理人类运动的能力,iii)人类运动具有固有的组合性质,使得通过有效的重新组合来生成新的运动内容或风格成为可能。因此,我们提出利用身体部位文本空间作为中间表示,并提出SMooGPT,一个经过微调的LLM,在生成所需的风格化运动时充当推理者、组合者和生成者。我们的方法在身体部位文本空间中执行,具有更高的可解释性,能够实现细粒度的运动控制,有效解决运动内容和风格之间的潜在冲突,并由于LLMs的开放词汇能力而很好地泛化到新风格。全面的实验和评估以及用户感知研究证明了我们方法的有效性,特别是在纯文本驱动的风格化运动生成方面。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.