计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月23日
]
标题: PIG-Nav:预训练图像目标导航模型的关键见解
标题: PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models
摘要: 最近的研究探索了用于基于视觉的机器人导航的预训练(基础)模型,旨在实现跨不同环境的可泛化导航和正向迁移,同时提高在未见过设置中的零样本性能。 在本工作中,我们引入了PIG-Nav(预训练图像目标导航),一种新的方法,进一步研究了基于视觉的导航模型的预训练策略,并在两个关键领域做出了贡献。 在模型方面,我们确定了两个关键的设计选择,这些选择始终能提高预训练导航模型的性能:(1) 集成早期融合网络结构,通过适当预训练的视觉变换器(ViT)图像编码器结合视觉观察和目标图像,以及(2) 引入适当的辅助任务以增强全局导航表示学习,从而进一步提高导航性能。 在数据集方面,我们提出了一种新颖的数据预处理流程,以高效标记大规模游戏视频数据集用于导航模型训练。 我们证明了通过多样化的游戏视频增强现有的开放导航数据集可以提高模型性能。 我们的模型在两个复杂的模拟环境和一个真实环境中,相对于现有的视觉导航基础模型,在零样本设置中平均提高了22.6%,在微调设置中提高了37.5%。 这些结果推进了预训练图像目标导航模型的最先进水平。 值得注意的是,我们的模型在需要显著较少微调数据的情况下保持了具有竞争力的性能,突显了其在最小标注监督下进行实际部署的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.