Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.00819

帮助 | 高级搜索

计算机科学 > 机器人技术

arXiv:2506.00819 (cs)
[提交于 2025年6月1日 ]

标题: DriveMind:一种基于双视觉语言模型的自动驾驶强化学习框架

标题: DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving

Authors:Dawood Wasif, Terrence J Moore, Chandan K Reddy, Jin-Hee Cho
摘要: 端到端的自动驾驶系统直接将传感器数据映射到控制命令,但这些系统仍然缺乏透明性、可解释性和正式的安全保障。 尽管最近的视觉-语言引导的强化学习(RL)方法引入了语义反馈,但它们往往依赖静态提示和固定目标,限制了对动态驾驶场景的适应能力。 我们提出了 DriveMind,这是一个统一的语义奖励框架,集成了以下组件:(i) 对于逐步语义锚定的对比视觉-语言模型(VLM)编码器;(ii) 基于新颖性触发的 VLM 编码器-解码器,通过链式思维(CoT)蒸馏微调,用于在语义漂移时生成动态提示;(iii) 一个分层安全模块,强制执行运动学约束(如速度、车道居中、稳定性);以及 (iv) 一个紧凑的预测世界模型,以实现与预期理想状态的奖励对齐。 DriveMind 在 CARLA Town 2 中实现了平均速度 19.4 ± 2.3 km/h、路线完成率 0.98 ± 0.03,并且几乎零碰撞,成功率为基线高出 4% 以上。 其语义奖励在最小分布偏移的情况下能够零样本推广到真实的车载摄像头数据,展示了跨领域的稳健对齐和实际部署潜力。
摘要: End-to-end autonomous driving systems map sensor data directly to control commands, but remain opaque, lack interpretability, and offer no formal safety guarantees. While recent vision-language-guided reinforcement learning (RL) methods introduce semantic feedback, they often rely on static prompts and fixed objectives, limiting adaptability to dynamic driving scenes. We present DriveMind, a unified semantic reward framework that integrates: (i) a contrastive Vision-Language Model (VLM) encoder for stepwise semantic anchoring; (ii) a novelty-triggered VLM encoder-decoder, fine-tuned via chain-of-thought (CoT) distillation, for dynamic prompt generation upon semantic drift; (iii) a hierarchical safety module enforcing kinematic constraints (e.g., speed, lane centering, stability); and (iv) a compact predictive world model to reward alignment with anticipated ideal states. DriveMind achieves 19.4 +/- 2.3 km/h average speed, 0.98 +/- 0.03 route completion, and near-zero collisions in CARLA Town 2, outperforming baselines by over 4% in success rate. Its semantic reward generalizes zero-shot to real dash-cam data with minimal distributional shift, demonstrating robust cross-domain alignment and potential for real-world deployment.
主题: 机器人技术 (cs.RO) ; 人工智能 (cs.AI)
引用方式: arXiv:2506.00819 [cs.RO]
  (或者 arXiv:2506.00819v1 [cs.RO] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.00819
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Dawood Wasif [查看电子邮件]
[v1] 星期日, 2025 年 6 月 1 日 03:51:09 UTC (1,115 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.RO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号