计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: 自适应神经时间感知文本到运动模型
标题: ANT: Adaptive Neural Temporal-Aware Text-to-Motion Model
摘要: 尽管扩散模型在文本到运动的生成方面取得了进展,但它们静态语义条件忽略了时间频率需求:早期去噪需要结构语义作为运动的基础,而后期阶段则需要局部细节来实现与文本的对齐。 这种不匹配类似于生物形态发生过程,在此过程中,发育阶段需要不同的遗传程序。 受到表观遗传调控引导形态特化的启发,我们提出了 **(ANT)**,即一种 **A**daptive **N**eural **T**ime-Aware 架构。 ANT 通过以下方式协调语义粒度: **(i) 语义时间自适应 (STA) 模块:** 通过频谱分析自动将去噪过程分为低频结构规划和高频细化。 **(ii) 动态无分类器引导调度 (DCFG):** 自适应调整条件与非条件的比例,以提高效率同时保持保真度。 **(iii) 时间语义重加权:** 定量地将文本影响与阶段需求对齐。 广泛的实验表明,ANT 可应用于各种基线模型,显著提升模型性能,并在 StableMoFusion 上实现了最先进的语义对齐效果。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.