计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月26日
]
标题: LLaVA-Pose:通过关键点整合的指令微调增强人体姿态和动作理解
标题: LLaVA-Pose: Enhancing Human Pose and Action Understanding via Keypoint-Integrated Instruction Tuning
摘要: 当前视觉语言模型(VLMs)适用于一般的视觉理解任务。 然而,由于缺乏专门的视觉语言指令遵循数据,它们在处理与人体姿态和动作相关的复杂视觉任务时表现不佳。 我们引入了一种生成此类数据的方法,通过将人体关键点与传统的视觉特征(如描述和边界框)相结合,从而更精确地理解以人类为中心的场景。 我们的方法构建了一个包含200,328个样本的数据集,专门用于微调以人类为中心的任务模型,重点关注三个领域:对话、详细描述和复杂推理。 我们建立了一个扩展的人体姿态和动作理解基准(E-HPAUB),以评估模型在人体姿态和动作理解方面的性能。 我们使用此数据集对LLaVA-1.5-7B模型进行微调,并在基准上评估我们的LLaVA-Pose模型,取得了显著提升。 实验结果表明,与原始的LLaVA-1.5-7B模型相比,整体提升了33.2%。 这些发现突显了关键点集成数据在增强以人类为中心的视觉理解多模态模型方面的有效性。 代码可在https://github.com/Ody-trek/LLaVA-Pose获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.