Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.22593

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2506.22593 (cs)
[提交于 2025年6月27日 ]

标题: 像素到图:用于语义几何人机理解的建筑信息模型与场景图的实时集成

标题: Pixels-to-Graph: Real-time Integration of Building Information Models and Scene Graphs for Semantic-Geometric Human-Robot Understanding

Authors:Antonello Longo, Chanyoung Chung, Matteo Palieri, Sung-Kyun Kim, Ali Agha, Cataldo Guaragnella, Shehryar Khattak
摘要: 自主机器人在高风险、危险的应用中作为人类操作员的支持平台,正发挥着越来越重要的作用。 为了完成具有挑战性的任务,需要高效的一个人机协作和理解。 虽然通常机器人规划利用3D几何信息,但人类操作员习惯于环境的高层紧凑表示,如俯视2D地图,代表建筑信息模型(BIM)。 3D场景图已成为一种强大的工具,以弥合人类可读的2D BIM和机器人3D地图之间的差距。 在这项工作中,我们引入了像素到图(Pix2G),一种新颖的轻量级方法,可在资源受限的机器人平台上实时从图像像素和LiDAR地图生成结构化的场景图,用于未知环境的自主探索。 为了满足机载计算约束,该框架设计为仅在CPU上执行所有操作。 该方法的输出是一个去噪的2D俯视环境地图和一个结构分割的3D点云,这些通过一个多层图无缝连接,从物体级别到建筑级别抽象信息。 所提出的方法在使用NASA JPL NeBula-Spot四足机器人进行的现实世界实验中进行了定量和定性评估,以实时自主探索和映射杂乱的车库和城市办公室类似环境。
摘要: Autonomous robots are increasingly playing key roles as support platforms for human operators in high-risk, dangerous applications. To accomplish challenging tasks, an efficient human-robot cooperation and understanding is required. While typically robotic planning leverages 3D geometric information, human operators are accustomed to a high-level compact representation of the environment, like top-down 2D maps representing the Building Information Model (BIM). 3D scene graphs have emerged as a powerful tool to bridge the gap between human readable 2D BIM and the robot 3D maps. In this work, we introduce Pixels-to-Graph (Pix2G), a novel lightweight method to generate structured scene graphs from image pixels and LiDAR maps in real-time for the autonomous exploration of unknown environments on resource-constrained robot platforms. To satisfy onboard compute constraints, the framework is designed to perform all operation on CPU only. The method output are a de-noised 2D top-down environment map and a structure-segmented 3D pointcloud which are seamlessly connected using a multi-layer graph abstracting information from object-level up to the building-level. The proposed method is quantitatively and qualitatively evaluated during real-world experiments performed using the NASA JPL NeBula-Spot legged robot to autonomously explore and map cluttered garage and urban office like environments in real-time.
评论: 论文被2025年IEEE自动化科学与工程国际会议(CASE)接收
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.22593 [cs.RO]
  (或者 arXiv:2506.22593v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.22593
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Antonello Longo [查看电子邮件]
[v1] 星期五, 2025 年 6 月 27 日 19:23:31 UTC (11,673 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.RO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.AI
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号