计算机科学 > 机器人技术
[提交于 2025年1月9日
]
标题: LearningFlow:基于大语言模型的城市驾驶自动策略学习工作流
标题: LearningFlow: Automated Policy Learning Workflow for Urban Driving with Large Language Models
摘要: 最近在强化学习(RL)方面的进展展示了其在自动驾驶中的巨大潜力。 尽管有这种前景,但诸如手动设计奖励函数以及复杂环境中的低样本效率等挑战仍然阻碍了安全有效驾驶策略的发展。 为了解决这些问题,我们引入了LearningFlow,这是一个针对城市驾驶的创新自动化策略学习工作流。 该框架在整个RL训练过程中利用了多个大型语言模型(LLM)代理的合作。 LearningFlow包括一个课程序列生成过程和一个奖励生成过程,这两个过程协同工作,通过生成定制的训练课程和奖励函数来指导RL策略。 特别是,每个过程都由一个分析代理支持,该代理评估训练进度并为生成代理提供关键见解。 通过这些LLM代理的协作努力, LearningFlow在一系列复杂的驾驶任务中实现了策略学习的自动化,并显著减少了对人工奖励函数设计的依赖,同时提高了样本效率。 在高保真CARLA模拟器中进行了全面的实验,并与其他现有方法进行了比较,以证明我们提出的方法的有效性。 结果表明,LearningFlow在生成奖励和课程方面表现出色。 它在各种驾驶任务中也实现了优越的性能和强大的泛化能力,并对不同的RL算法表现出令人称赞的适应性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.