Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.01284

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2507.01284 (cs)
[提交于 2025年7月2日 ]

标题: VLAD:一种具有分层规划和可解释决策过程的VLM增强型自动驾驶框架

标题: VLAD: A VLM-Augmented Autonomous Driving Framework with Hierarchical Planning and Interpretable Decision Process

Authors:Cristian Gariboldi, Hayato Tokida, Ken Kinjo, Yuki Asada, Alexander Carballo
摘要: 最近在开源视觉语言模型(VLMs)如LLaVA、Qwen-VL和Llama方面的进展,推动了它们与各种系统集成的广泛研究。这些模型中包含的互联网规模的一般知识,为增强自动驾驶的感知、预测和规划能力提供了重要机遇。在本文中,我们提出了VLAD,一种视觉语言自动驾驶模型,它结合了微调的VLM和VAD,一个最先进的端到端系统。我们使用专门设计的定制问答数据集,实施了一种特殊的微调方法,旨在提高模型的空间推理能力。增强的VLM生成高层次的导航指令,VAD随后处理这些指令以指导车辆操作。此外,我们的系统生成可解释的自然语言驾驶决策说明,从而提高传统黑盒端到端架构的透明度和可信度。在真实世界nuScenes数据集上的综合评估表明,与基线方法相比,我们的集成系统将平均碰撞率降低了31.82%,为VLM增强的自动驾驶系统设立了新的基准。
摘要: Recent advancements in open-source Visual Language Models (VLMs) such as LLaVA, Qwen-VL, and Llama have catalyzed extensive research on their integration with diverse systems. The internet-scale general knowledge encapsulated within these models presents significant opportunities for enhancing autonomous driving perception, prediction, and planning capabilities. In this paper we propose VLAD, a vision-language autonomous driving model, which integrates a fine-tuned VLM with VAD, a state-of-the-art end-to-end system. We implement a specialized fine-tuning approach using custom question-answer datasets designed specifically to improve the spatial reasoning capabilities of the model. The enhanced VLM generates high-level navigational commands that VAD subsequently processes to guide vehicle operation. Additionally, our system produces interpretable natural language explanations of driving decisions, thereby increasing transparency and trustworthiness of the traditionally black-box end-to-end architecture. Comprehensive evaluation on the real-world nuScenes dataset demonstrates that our integrated system reduces average collision rates by 31.82% compared to baseline methodologies, establishing a new benchmark for VLM-augmented autonomous driving systems.
评论: 2025年IEEE第28届智能交通系统国际会议(ITSC)
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV); 新兴技术 (cs.ET); 机器学习 (cs.LG)
引用方式: arXiv:2507.01284 [cs.RO]
  (或者 arXiv:2507.01284v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.01284
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Cristian Gariboldi [查看电子邮件]
[v1] 星期三, 2025 年 7 月 2 日 01:52:40 UTC (11,284 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.RO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.CV
cs.ET
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号