计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: 学习金字塔结构的长程依赖关系用于三维人体姿态估计
标题: Learning Pyramid-structured Long-range Dependencies for 3D Human Pose Estimation
摘要: 人体结构中的动作协调对于恢复3D姿势的二维关节的空间约束至关重要。 通常,动作协调被表示为身体部位之间的长距离依赖关系。 然而,在建模长距离依赖关系时存在两个主要挑战。 首先,关节不仅应受到其他单个关节的约束,还应受到身体部位的调制。 其次,现有方法通过使网络更深来学习非连接部分之间的依赖关系。 它们引入了不相关的噪声并增加了模型规模。 在本文中,我们利用金字塔结构更好地学习潜在的长距离依赖关系。 它可以捕获关节和组之间的相关性,从而补充人体子结构的上下文。 以一种有效的跨尺度方式,它捕获了金字塔结构的长距离依赖关系。 具体而言,我们提出了一个新颖的金字塔图注意力(PGA)模块来捕获长距离跨尺度依赖关系。 它将来自不同尺度的信息拼接成一个紧凑的序列,然后并行计算尺度之间的相关性。 结合PGA与图卷积模块,我们开发了一种用于3D人体姿态估计的金字塔图Transformer(PGFormer),这是一种轻量级多尺度Transformer架构。 它通过池化将人体子结构封装到自注意力中。 大量的实验表明,我们的方法在Human3.6M和MPI-INF-3DHP数据集上的误差更低且模型更小。 代码可在https://github.com/MingjieWe/PGFormer获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.