计算机科学 > 计算机视觉与模式识别
[提交于 2025年4月1日
]
标题: AP-CAP:通过可控图像生成管道推进高质量动物姿态估计的数据合成
标题: AP-CAP: Advancing High-Quality Data Synthesis for Animal Pose Estimation via a Controllable Image Generation Pipeline
摘要: 二维动物姿态估计任务在推动动物行为分析和生态学研究中的深度学习应用方面发挥着至关重要的作用。尽管现有的一些方法取得了显著进展,但我们的研究表明,高质量数据集的匮乏仍然是一个重要的瓶颈,限制了当前方法的全部潜力。 为了解决这一挑战,我们提出了一种新颖的可控图像生成管道,用于合成动物姿态估计数据,称为AP-CAP(Animal Pose - Controlled AutoPipeline)。在这个管道中,我们引入了一个多模态动物图像生成模型,能够生成具有预期姿态的图像。 为了提高生成数据的质量和多样性,我们进一步提出了三种创新策略:(1)基于模态融合的动物图像合成策略,以整合多源外观表示;(2)基于姿态调整的动物图像合成策略,以动态捕捉多样化的姿态变化;(3)基于标题增强的动物图像合成策略,以丰富视觉语义理解。 利用所提出的模型和策略,我们创建了MPCH数据集(模态-姿态-标题混合),这是第一个创新性地结合合成和真实数据的混合数据集,建立了迄今为止最大规模的多源异构基准库,用于动物姿态估计。 广泛的实验表明,我们的方法在提高动物姿态估计器的性能和泛化能力方面具有优越性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.