计算机科学 > 机器人技术
[提交于 2025年6月30日
]
标题: 多时间尺度分层强化学习用于自动驾驶的统一行为与控制
标题: Multi-Timescale Hierarchical Reinforcement Learning for Unified Behavior and Control of Autonomous Driving
摘要: 强化学习(RL)在自动驾驶(AD)中得到越来越多的应用,并显示出明显的优势。 然而,大多数基于RL的AD方法忽略了策略结构设计。 一个仅输出短时域车辆控制指令的RL策略会导致由于网络输出波动而引起的驾驶行为波动,而一个仅输出长时域驾驶目标的策略无法实现驾驶行为和控制的统一最优。 因此,我们提出了一种多时域分层强化学习方法。 我们的方法采用分层策略结构,其中高层和低层RL策略被统一训练,分别生成长时域运动指导和短时域控制指令。 其中,运动指导通过混合动作显式表示,以捕捉结构化道路上的多模态驾驶行为,并支持增量式的低层扩展状态更新。 此外,设计了一个分层安全机制以确保多时域安全性。 在基于模拟器和HighD数据集的高速公路上多车道场景中的评估表明,我们的方法显著提高了AD性能,有效提高了驾驶效率、动作一致性和安全性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.