计算机科学 > 机器人技术
[提交于 2025年7月9日
]
标题: SkyVLN:城市环境中无人机的视觉-语言导航和NMPC控制
标题: SkyVLN: Vision-and-Language Navigation and NMPC Control for UAVs in Urban Environments
摘要: 无人机(UAV)已成为各个领域中多功能的工具,这是由于它们的移动性和适应性。 本文介绍了SkyVLN,这是一种将视觉与语言导航(VLN)与非线性模型预测控制(NMPC)相结合的新框架,以提高无人机在复杂城市环境中的自主性。 与传统的导航方法不同,SkyVLN利用大语言模型(LLMs)来解释自然语言指令和视觉观察,使无人机能够在动态三维空间中更准确和稳健地导航。 我们提出了一种多模态导航代理,配备了细粒度的空间描述器和历史路径记忆机制。 这些组件使无人机能够消除空间上下文的歧义,处理模糊的指令,并在必要时回溯。 该框架还集成了一个NMPC模块,用于动态避障,确保精确的轨迹跟踪和碰撞预防。 为了验证我们的方法,我们使用AirSim开发了一个高保真度的3D城市仿真环境,包含逼真的图像和动态城市元素。 大量实验表明,SkyVLN显著提高了导航成功率和效率,特别是在新出现和未见过的环境中。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.