计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月12日
]
标题: PoseLLM:通过MLP对齐增强语言引导的人体姿态估计
标题: PoseLLM: Enhancing Language-Guided Human Pose Estimation with MLP Alignment
摘要: 人体姿态估计传统上依赖于编码关键点先验的架构,这限制了它们在新姿态或未见过的关键点上的泛化能力。 最近的语言引导方法如LocLLM将关键点定位重新表述为一个视觉-语言任务,通过文本描述实现零样本泛化。 然而,LocLLM的线性投影器无法捕捉对高精度定位至关重要的复杂空间-文本交互。 为了解决这个问题,我们提出了PoseLLM,第一个基于大型语言模型(LLM)的姿态估计框架,该框架用非线性MLP视觉-语言连接器替换了线性投影器。 这个带有GELU激活函数的轻量级两层MLP实现了分层跨模态特征转换,增强了视觉块和文本关键点描述的融合。 仅在COCO数据上训练,PoseLLM在COCO验证集上达到了77.8 AP,比LocLLM高出+0.4 AP,同时在Human-Art和MPII上保持了强大的零样本泛化能力。 我们的工作表明,一个简单而强大的非线性连接器显著提高了定位精度,而不会牺牲泛化能力,推动了语言引导姿态估计的最先进技术。 代码可在https://github.com/Ody-trek/PoseLLM获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.