计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月30日
]
标题: 使用格点变形框架和扩散增强合成数据的农业环境下的类别级6D物体位姿估计
标题: Category-Level 6D Object Pose Estimation in Agricultural Settings Using a Lattice-Deformation Framework and Diffusion-Augmented Synthetic Data
摘要: 准确的6D物体姿态估计对于机器人抓取和操作至关重要,特别是在农业领域,其中水果和蔬菜在形状、大小和纹理方面表现出很高的类内变异性。 现有方法的绝大部分依赖于特定实例的CAD模型,或者需要深度传感器来解决几何模糊性,这使得它们在现实世界的农业应用中变得不切实际。 在这项工作中,我们引入了PLANTPose,这是一种新颖的框架,用于类别级别的6D姿态估计,完全基于RGB输入。 PLANTPose预测了相对于基础网格的6D姿态和变形参数,使单一的类别级别CAD模型能够适应未见过的实例。 这使得在不同形状上进行精确的姿态估计成为可能,而无需依赖特定实例的数据。 为了增强真实感并提高泛化能力,我们还利用Stable Diffusion通过真实的纹理细化合成训练图像,模仿由于成熟度和环境因素引起的变异,并弥合合成数据与现实世界之间的领域差距。 我们在一个具有挑战性的基准测试中的评估表明,我们的框架在处理大类内变化的同时保持了准确的6D姿态预测,显著优于最先进的基于RGB的方法MegaPose。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.