Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.18680

帮助 | 高级搜索

计算机科学 > 图形学

arXiv:2506.18680 (cs)
[提交于 2025年6月23日 ]

标题: DuetGen:通过分层掩码建模的音乐驱动双人舞蹈生成

标题: DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling

Authors:Anindita Ghosh, Bing Zhou, Rishabh Dabral, Jian Wang, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek, Chuan Guo
摘要: 我们提出DuetGen,一种从音乐生成互动双人舞蹈的新框架。 这项任务的关键挑战在于双人舞蹈互动的固有复杂性,其中舞伴需要彼此之间以及与音乐同步。 受运动合成最新进展的启发,我们提出了一种两阶段解决方案:将双人动作编码为离散标记,然后从音乐生成这些标记。 为了有效捕捉复杂的互动,我们将两名舞者的动作表示为一个统一的整体,以学习必要的运动标记,并在两个阶段中采用从粗到细的学习策略。 我们的第一阶段使用一个VQ-VAE,它在较粗的时间分辨率上分离高层次语义特征,在更细的时间分辨率上分离低层次细节,从而在不同抽象层次上生成两个离散标记序列。 随后,在第二阶段,两个生成掩码变压器学习将音乐信号映射到这些舞蹈标记:第一个生成高层次语义标记,第二个则在音乐和这些语义标记的条件下生成低层次标记。 我们训练这两个变压器以学习预测序列中的随机掩码标记,使它们能够在推理过程中通过填充一个空标记序列来迭代生成运动标记。 通过分层掩码建模和专门的互动表示,DuetGen实现了在各种流派中同步且互动的双人舞蹈生成。 在基准双人舞蹈数据集上的广泛实验和用户研究证明了DuetGen在运动真实感、音乐-舞蹈对齐和搭档协调方面的最先进性能。
摘要: We present DuetGen, a novel framework for generating interactive two-person dances from music. The key challenge of this task lies in the inherent complexities of two-person dance interactions, where the partners need to synchronize both with each other and with the music. Inspired by the recent advances in motion synthesis, we propose a two-stage solution: encoding two-person motions into discrete tokens and then generating these tokens from music. To effectively capture intricate interactions, we represent both dancers' motions as a unified whole to learn the necessary motion tokens, and adopt a coarse-to-fine learning strategy in both the stages. Our first stage utilizes a VQ-VAE that hierarchically separates high-level semantic features at a coarse temporal resolution from low-level details at a finer resolution, producing two discrete token sequences at different abstraction levels. Subsequently, in the second stage, two generative masked transformers learn to map music signals to these dance tokens: the first producing high-level semantic tokens, and the second, conditioned on music and these semantic tokens, producing the low-level tokens. We train both transformers to learn to predict randomly masked tokens within the sequence, enabling them to iteratively generate motion tokens by filling an empty token sequence during inference. Through the hierarchical masked modeling and dedicated interaction representation, DuetGen achieves the generation of synchronized and interactive two-person dances across various genres. Extensive experiments and user studies on a benchmark duet dance dataset demonstrate state-of-the-art performance of DuetGen in motion realism, music-dance alignment, and partner coordination.
评论: 11页,7图,2表,被ACM Siggraph 2025会议赛道接收
主题: 图形学 (cs.GR) ; 计算机视觉与模式识别 (cs.CV); 声音 (cs.SD); 音频与语音处理 (eess.AS)
引用方式: arXiv:2506.18680 [cs.GR]
  (或者 arXiv:2506.18680v1 [cs.GR] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.18680
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Anindita Ghosh [查看电子邮件]
[v1] 星期一, 2025 年 6 月 23 日 14:22:50 UTC (5,274 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.GR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.CV
cs.SD
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号