计算机科学 > 机器人技术
[提交于 2025年5月1日
]
标题: LightEMMA:用于自动驾驶的轻量级端到端多模态模型
标题: LightEMMA: Lightweight End-to-End Multimodal Model for Autonomous Driving
摘要: 视觉-语言模型(VLMs)在端到端自动驾驶方面展示了显著的潜力。然而,充分利用它们的能力以实现安全可靠的车辆控制仍然是一个开放的研究挑战。为了系统地检查VLMs在驾驶任务中的进展和局限性,我们介绍了LightEMMA,一种用于自动驾驶的轻量级端到端多模态模型。LightEMMA提供了一个统一的、基于VLM的自动驾驶框架,无需临时定制,从而能够轻松集成和评估不断发展的最先进的商业和开源模型。我们使用各种VLM构建了十二个自动驾驶代理,并在nuScenes预测任务上评估了它们的性能,全面评估了诸如推理时间、计算成本和预测准确性等指标。示例表明,尽管VLMs具有强大的场景理解能力,但它们在自动驾驶任务中的实际表现仍然令人担忧,强调了进一步改进的必要性。代码可在 https://github.com/michigan-traffic-lab/LightEMMA 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.