Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.09139

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.09139 (cs)
[提交于 2025年7月12日 ]

标题: PoseLLM:通过MLP对齐增强语言引导的人体姿态估计

标题: PoseLLM: Enhancing Language-Guided Human Pose Estimation with MLP Alignment

Authors:Dewen Zhang, Tahir Hussain, Wangpeng An, Hayaru Shouno
摘要: 人体姿态估计传统上依赖于编码关键点先验的架构,这限制了它们在新姿态或未见过的关键点上的泛化能力。 最近的语言引导方法如LocLLM将关键点定位重新表述为一个视觉-语言任务,通过文本描述实现零样本泛化。 然而,LocLLM的线性投影器无法捕捉对高精度定位至关重要的复杂空间-文本交互。 为了解决这个问题,我们提出了PoseLLM,第一个基于大型语言模型(LLM)的姿态估计框架,该框架用非线性MLP视觉-语言连接器替换了线性投影器。 这个带有GELU激活函数的轻量级两层MLP实现了分层跨模态特征转换,增强了视觉块和文本关键点描述的融合。 仅在COCO数据上训练,PoseLLM在COCO验证集上达到了77.8 AP,比LocLLM高出+0.4 AP,同时在Human-Art和MPII上保持了强大的零样本泛化能力。 我们的工作表明,一个简单而强大的非线性连接器显著提高了定位精度,而不会牺牲泛化能力,推动了语言引导姿态估计的最先进技术。 代码可在https://github.com/Ody-trek/PoseLLM获取。
摘要: Human pose estimation traditionally relies on architectures that encode keypoint priors, limiting their generalization to novel poses or unseen keypoints. Recent language-guided approaches like LocLLM reformulate keypoint localization as a vision-language task, enabling zero-shot generalization through textual descriptions. However, LocLLM's linear projector fails to capture complex spatial-textual interactions critical for high-precision localization. To address this, we propose PoseLLM, the first Large Language Model (LLM)-based pose estimation framework that replaces the linear projector with a nonlinear MLP vision-language connector. This lightweight two-layer MLP with GELU activation enables hierarchical cross-modal feature transformation, enhancing the fusion of visual patches and textual keypoint descriptions. Trained exclusively on COCO data, PoseLLM achieves 77.8 AP on the COCO validation set, outperforming LocLLM by +0.4 AP, while maintaining strong zero-shot generalization on Human-Art and MPII. Our work demonstrates that a simple yet powerful nonlinear connector significantly boosts localization accuracy without sacrificing generalization, advancing the state-of-the-art in language-guided pose estimation. Code is available at https://github.com/Ody-trek/PoseLLM.
评论: 预印本
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.09139 [cs.CV]
  (或者 arXiv:2507.09139v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.09139
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Dewen Zhang [查看电子邮件]
[v1] 星期六, 2025 年 7 月 12 日 04:53:39 UTC (735 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号