Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2212.00922

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2212.00922 (cs)
[提交于 2022年12月2日 ]

标题: 在现实世界中定位物体

标题: Navigating to Objects in the Real World

Authors:Theophile Gervet, Soumith Chintala, Dhruv Batra, Jitendra Malik, Devendra Singh Chaplot
摘要: 语义导航对于在不受控环境如我们的家庭、学校和医院中部署移动机器人是必要的。 许多基于学习的方法被提出以应对经典空间导航流水线在语义理解方面的不足,该流水线使用深度传感器构建几何地图并规划到达点目标。 广泛地说,端到端学习方法使用深度神经网络将传感器输入反应性地映射到动作,而模块化学习方法则通过基于学习的语义感知和探索来丰富经典流水线。 但已学习的视觉导航策略主要在仿真环境中进行评估。 不同类别的方法在机器人上表现如何? 我们进行了一项大规模的实证研究,比较了经典、模块化和端到端学习方法中的代表性方法,在六所没有先验经验、地图或设备的住宅中进行比较。 我们发现模块化学习在现实世界中表现良好,达到了90%的成功率。 相比之下,端到端学习则表现不佳,由于仿真与现实之间的图像领域差距较大,其成功率从仿真中的77%下降到现实世界的23%。 对于实践者来说,我们展示了模块化学习是一种可靠的导航到物体的方法:策略设计中的模块化和抽象性使得Sim-to-Real迁移成为可能。 对于研究人员来说,我们确定了两个关键问题,这些问题阻碍了当今模拟器成为可靠的评估基准——(A) 图像中的Sim-to-Real差距较大,以及 (B) 模拟与现实世界错误模式之间的脱节——并提出了具体的前进步骤。
摘要: Semantic navigation is necessary to deploy mobile robots in uncontrolled environments like our homes, schools, and hospitals. Many learning-based approaches have been proposed in response to the lack of semantic understanding of the classical pipeline for spatial navigation, which builds a geometric map using depth sensors and plans to reach point goals. Broadly, end-to-end learning approaches reactively map sensor inputs to actions with deep neural networks, while modular learning approaches enrich the classical pipeline with learning-based semantic sensing and exploration. But learned visual navigation policies have predominantly been evaluated in simulation. How well do different classes of methods work on a robot? We present a large-scale empirical study of semantic visual navigation methods comparing representative methods from classical, modular, and end-to-end learning approaches across six homes with no prior experience, maps, or instrumentation. We find that modular learning works well in the real world, attaining a 90% success rate. In contrast, end-to-end learning does not, dropping from 77% simulation to 23% real-world success rate due to a large image domain gap between simulation and reality. For practitioners, we show that modular learning is a reliable approach to navigate to objects: modularity and abstraction in policy design enable Sim-to-Real transfer. For researchers, we identify two key issues that prevent today's simulators from being reliable evaluation benchmarks - (A) a large Sim-to-Real gap in images and (B) a disconnect between simulation and real-world error modes - and propose concrete steps forward.
评论: 39页,19图和表,已提交至《科学机器人》
主题: 机器人技术 (cs.RO) ; 计算机视觉与模式识别 (cs.CV); 机器学习 (cs.LG)
引用方式: arXiv:2212.00922 [cs.RO]
  (或者 arXiv:2212.00922v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2212.00922
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Theophile Gervet [查看电子邮件]
[v1] 星期五, 2022 年 12 月 2 日 01:10:47 UTC (34,947 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.RO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2022-12
切换浏览方式为:
cs
cs.CV
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号