计算机科学 > 计算机视觉与模式识别
[提交于 2025年4月27日
]
标题: 轻量级多模态多视图卷积-视觉Transformer方法用于3D物体识别:LM-MCVT
标题: LM-MCVT: A Lightweight Multi-modal Multi-view Convolutional-Vision Transformer Approach for 3D Object Recognition
摘要: 在以人类为中心的环境中,如餐厅、家庭和仓库,机器人常常难以准确识别三维物体。 这些挑战源于这些环境的复杂性和变异性,包括物体形状的多样性。 本文提出了一种新颖的轻量级多模态多视图卷积-视觉Transformer网络(LM-MCVT),以增强机器人应用中的三维物体识别。 我们的方法利用基于全局熵的嵌入融合(GEEF)方法高效地整合多视图信息。 LM-MCVT架构结合了预处理和中级卷积编码器以及局部和全局Transformer,以提升特征提取和识别准确性。 我们在合成的ModelNet40数据集上评估了我们的方法,在四视图设置下达到了95.6%的识别准确率,超过了现有的最先进方法。 为了进一步验证其有效性,我们使用相同的配置在现实世界的OmniObject3D数据集上进行了5折交叉验证。 结果始终显示出优越的性能,证明了该方法在合成和真实世界三维数据中的三维物体识别的鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.