计算机科学 > 机器人技术
[提交于 2025年7月1日
]
标题: 2024年NASA宇航服报告:用于机器人和太空探索的基于大语言模型的沉浸式增强现实用户界面
标题: 2024 NASA SUITS Report: LLM-Driven Immersive Augmented Reality User Interface for Robotics and Space Exploration
摘要: 随着现代计算技术的进步,新的交互范式已经出现,特别是在增强现实(AR)中,它将虚拟界面叠加在物理物体上。 这种演变在机器感知方面带来了挑战,尤其是在复杂、动态环境中的3D物体姿态估计任务。 我们的项目解决了移动AR中人机交互中的关键问题,重点是无干扰的、空间感知的界面。 我们提出了URSA,一个由大型语言模型驱动的沉浸式AR系统,专为NASA的2023-2024 SUITS挑战而开发,旨在满足未来航天飞行需求,如阿耳忒弥斯任务。 URSA集成了三项核心技术:用于直观视觉反馈的头戴式AR设备(例如HoloLens),由大型语言模型支持的语音控制以实现无手操作,以及机器人跟踪算法,可在动态环境中实现精确的3D定位。 为了提高精度,我们利用了数字孪生定位技术,使用DTTD-Mobile等数据集和ZED2相机等专用硬件,在噪声和遮挡条件下进行真实世界跟踪。 我们的系统即使在没有地面真实传感器的情况下,也能通过AR界面实现实时机器人控制和监控——这对于危险或远程操作至关重要。 主要贡献包括: (1) 一种基于LLM的语音输入的无干扰AR界面;(2) 一种基于ZED2的数据集,专门针对非刚性机器人身体;(3) 一种本地任务控制台(LMCC)用于任务可视化;(4) 一种基于Transformer的6DoF姿态估计器(DTTDNet),优化了深度融合和实时跟踪;以及(5) 用于宇航员任务支持的端到端集成。 这项工作推动了机器人技术中数字孪生应用的发展,为航空航天和工业领域提供了可扩展的解决方案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.