计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月9日
]
标题: VOccl3D:一种用于真实遮挡下3D人体姿态和形状估计的视频基准数据集
标题: VOccl3D: A Video Benchmark Dataset for 3D Human Pose and Shape Estimation under real Occlusions
摘要: 人体姿态和形状(HPS)估计方法已被广泛研究,许多方法在真实场景图像和视频中表现出色。 然而,这些方法在涉及复杂人体姿势或显著遮挡的挑战性场景中通常表现不佳。 尽管一些研究解决了遮挡下的3D人体姿态估计问题,但它们通常在缺乏现实或显著遮挡的数据集上评估性能,例如,大多数现有数据集通过在人体上随机贴图或剪贴画风格的覆盖来引入遮挡,这可能无法反映现实世界的挑战。 为了弥补现实遮挡数据集的这一差距,我们引入了一个新的基准数据集,VOccl3D,这是一个基于视频的人体遮挡数据集,包含3D身体姿态和形状标注。 受AGORA和BEDLAM等工作的启发,我们使用先进的计算机图形渲染技术构建了这个数据集,融入了多样的现实世界遮挡场景、服装纹理和人体运动。 此外,我们在我们的数据集上微调了最近的HPS方法,CLIFF和BEDLAM-CLIFF,展示了在多个公共数据集以及我们数据集的测试分割上的显著定性和定量改进,并与其他最先进的方法进行比较。 此外,我们利用我们的数据集通过微调现有的目标检测器YOLO11来提升遮挡下的行人检测性能,从而在遮挡下实现一个鲁棒的端到端HPS估计系统。 总体而言,该数据集为未来旨在基准化处理遮挡的方法的研究提供了宝贵的资源,为现有遮挡数据集提供了一个更真实的替代方案。 查看项目页面获取代码和数据集:https://yashgarg98.github.io/VOccl3D-dataset/
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.