计算机科学 > 机器学习
[提交于 2025年8月11日
]
标题: 基于视觉的定位和基于大语言模型的室内环境导航
标题: Vision-Based Localization and LLM-based Navigation for Indoor Environments
摘要: 室内导航由于缺乏可靠的GPS信号以及大型封闭环境的建筑复杂性,仍然是一个复杂的挑战。本研究提出了一种室内定位和导航方法,该方法结合了基于视觉的定位与基于大语言模型(LLM)的导航。定位系统利用经过两阶段过程微调的ResNet-50卷积神经网络,通过智能手机摄像头输入来识别用户的位置。为了补充定位,导航模块使用一个大语言模型,该模型通过精心设计的系统提示引导,以解释预处理的平面图图像并生成分步指导。在具有重复特征和有限可视性的现实办公室走廊中进行了实验评估,以测试定位的鲁棒性。即使在受限的观看条件和短时查询下,该模型在所有测试航点上都达到了高置信度和96%的准确性。使用ChatGPT在真实建筑平面图上进行的导航测试平均指令准确率为75%,但在零样本推理和推理时间方面存在观察到的限制。这项研究展示了使用现成相机和公开可用的平面图实现可扩展、无需基础设施的室内导航的潜力,特别是在医院、机场和教育机构等资源受限的环境中。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.