Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.02917

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.02917 (cs)
[提交于 2025年8月4日 ]

标题: 使用大型视觉-语言模型遵循路线指示:低级和全景动作空间的比较

标题: Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces

Authors:Vebjørn Haug Kåsene, Pierre Lison
摘要: 视觉与语言导航(VLN)是指使自主机器人通过遵循自然语言指令来导航不熟悉的环境的任务。 尽管最近的大型视觉-语言模型(LVLMs)在这个任务中显示出潜力,但大多数当前的VLM系统依赖于专门设计和优化的模型进行导航,使得现成的LVLMs的潜力尚未得到充分探索。 此外,虽然较早的VLN方法使用了以自我为中心视角和原子动作(如“向左转”或“向前移动”)的低级动作空间,但较新的模型倾向于选择具有离散可导航视点的全景动作空间。 本文研究了(1)现成的LVLMs(未经架构修改或基于模拟器的训练微调)是否能有效支持VLN任务,以及(2)这些模型是否能支持低级和全景动作范式。 为此,我们在Room-to-Room(R2R)数据集上对开源模型Qwen2.5-VL-3B-Instruct进行微调,并在其低级和全景动作空间中评估其经验性能。 最佳结果模型在R2R测试集上实现了41%的成功率,这表明虽然现成的LVLMs可以学习执行视觉与语言导航,但它们仍落后于专门为该任务设计的模型。
摘要: Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atomic actions (such as "turn left" or "move forward"), newer models tend to favor panoramic action spaces with discrete navigable viewpoints. This paper investigates (1) whether off-the-shelf LVLMs (fine-tuned without architectural modifications or simulator-based training) can effectively support VLN tasks and (2) whether such models can support both low-level and panoramic action paradigms. To this end, we fine-tune the open-source model Qwen2.5-VL-3B-Instruct on the Room-to-Room (R2R) dataset and evaluate its empirical performance across both low-level and panoramic action spaces. The best resulting model achieves a 41% success rate on the R2R test set, demonstrating that while off-the-shelf LVLMs can learn to perform Vision-and-Language Navigation, they still lag behind models specifically designed for this task.
评论: 本文已被接受至ICNSLP 2025
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI); 计算与语言 (cs.CL); 机器人技术 (cs.RO)
引用方式: arXiv:2508.02917 [cs.CV]
  (或者 arXiv:2508.02917v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.02917
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Vebjørn Haug Kåsene [查看电子邮件]
[v1] 星期一, 2025 年 8 月 4 日 21:45:21 UTC (15,209 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CL
cs.CV
cs.RO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号