Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.21317

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.21317 (cs)
[提交于 2025年6月26日 ]

标题: LLaVA-Pose:通过关键点整合的指令微调增强人体姿态和动作理解

标题: LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning

Authors:Dewen Zhang, Tahir Hussain, Wangpeng An, Hayaru Shouno
摘要: 当前视觉语言模型(VLMs)适用于一般的视觉理解任务。 然而,由于缺乏专门的视觉语言指令遵循数据,它们在处理与人体姿态和动作相关的复杂视觉任务时表现不佳。 我们引入了一种生成此类数据的方法,通过将人体关键点与传统的视觉特征(如描述和边界框)相结合,从而更精确地理解以人类为中心的场景。 我们的方法构建了一个包含200,328个样本的数据集,专门用于微调以人类为中心的任务模型,重点关注三个领域:对话、详细描述和复杂推理。 我们建立了一个扩展的人体姿态和动作理解基准(E-HPAUB),以评估模型在人体姿态和动作理解方面的性能。 我们使用此数据集对LLaVA-1.5-7B模型进行微调,并在基准上评估我们的LLaVA-Pose模型,取得了显著提升。 实验结果表明,与原始的LLaVA-1.5-7B模型相比,整体提升了33.2%。 这些发现突显了关键点集成数据在增强以人类为中心的视觉理解多模态模型方面的有效性。 代码可在https://github.com/Ody-trek/LLaVA-Pose获取。
摘要: Current vision-language models (VLMs) are well-adapted for general visual understanding tasks. However, they perform inadequately when handling complex visual tasks related to human poses and actions due to the lack of specialized vision-language instruction-following data. We introduce a method for generating such data by integrating human keypoints with traditional visual features such as captions and bounding boxes, enabling more precise understanding of human-centric scenes. Our approach constructs a dataset comprising 200,328 samples tailored to fine-tune models for human-centric tasks, focusing on three areas: conversation, detailed description, and complex reasoning. We establish an Extended Human Pose and Action Understanding Benchmark (E-HPAUB) to assess model performance on human pose and action understanding. We fine-tune the LLaVA-1.5-7B model using this dataset and evaluate our resulting LLaVA-Pose model on the benchmark, achieving significant improvements. Experimental results show an overall improvement of 33.2% compared to the original LLaVA-1.5-7B model. These findings highlight the effectiveness of keypoint-integrated data in enhancing multimodal models for human-centric visual understanding. Code is available at https://github.com/Ody-trek/LLaVA-Pose.
评论: arXiv管理员注:与arXiv:2409.09306存在大量文本重叠
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.21317 [cs.CV]
  (或者 arXiv:2506.21317v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.21317
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Dewen Zhang [查看电子邮件]
[v1] 星期四, 2025 年 6 月 26 日 14:32:56 UTC (641 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号