计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: 基于原型引导特征对齐的零样本骨架动作识别
标题: Zero-shot Skeleton-based Action Recognition with Prototype-guided Feature Alignment
摘要: 零样本基于骨架的动作识别旨在在训练期间未接触过此类类别的情况下对未见过的基于骨架的人类动作进行分类。 由于从已知动作到未知动作的泛化难度很大,这项任务极具挑战性。 以往的研究通常采用两阶段训练:在可见动作类别上使用交叉熵损失对骨架编码器进行预训练,然后对预提取的骨架和文本特征进行对齐,通过骨架-文本对齐和语言模型的泛化能力实现知识迁移。 然而,它们的效果受到以下因素的阻碍:1)骨架特征的区分度不足,因为固定的骨架编码器无法捕捉有效的骨架-文本对齐所需的相关对齐信息;2)在测试过程中忽略了骨架和未见文本特征之间的对齐偏差。 为此,我们提出了一种原型引导的特征对齐范式,用于零样本基于骨架的动作识别,称为PGFA。 具体来说,我们开发了一个端到端的跨模态对比训练框架,以提高骨架-文本对齐效果,确保骨架特征具有足够的区分度。 此外,我们引入了一种原型引导的文本特征对齐策略,以减轻测试过程中分布差异的不利影响。 我们提供了理论分析来支持我们的原型引导的文本特征对齐策略,并在三个知名数据集上进行了经验评估。 与顶级竞争对手SMIE方法相比,我们的PGFA在NTU-60、NTU-120和PKU-MMD数据集上的绝对准确率分别提高了22.96%、12.53%和18.54%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.