计算机科学 > 机器人技术
[提交于 2025年6月1日
]
标题: DriveMind:一种基于双视觉语言模型的自动驾驶强化学习框架
标题: DriveMind: A Dual-VLM based Reinforcement Learning Framework for Autonomous Driving
摘要: 端到端的自动驾驶系统直接将传感器数据映射到控制命令,但这些系统仍然缺乏透明性、可解释性和正式的安全保障。 尽管最近的视觉-语言引导的强化学习(RL)方法引入了语义反馈,但它们往往依赖静态提示和固定目标,限制了对动态驾驶场景的适应能力。 我们提出了 DriveMind,这是一个统一的语义奖励框架,集成了以下组件:(i) 对于逐步语义锚定的对比视觉-语言模型(VLM)编码器;(ii) 基于新颖性触发的 VLM 编码器-解码器,通过链式思维(CoT)蒸馏微调,用于在语义漂移时生成动态提示;(iii) 一个分层安全模块,强制执行运动学约束(如速度、车道居中、稳定性);以及 (iv) 一个紧凑的预测世界模型,以实现与预期理想状态的奖励对齐。 DriveMind 在 CARLA Town 2 中实现了平均速度 19.4 ± 2.3 km/h、路线完成率 0.98 ± 0.03,并且几乎零碰撞,成功率为基线高出 4% 以上。 其语义奖励在最小分布偏移的情况下能够零样本推广到真实的车载摄像头数据,展示了跨领域的稳健对齐和实际部署潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.