计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月28日
]
标题: 基于多模态大语言模型优化的驾驶场景技术研究
标题: Research on Driving Scenario Technology Based on Multimodal Large Lauguage Model Optimization
摘要: 随着自动驾驶和辅助驾驶技术的发展,对理解复杂驾驶场景的能力提出了更高的要求。多模态通用大模型应运而生,成为解决这一挑战的方案。然而,在垂直领域应用这些模型时,存在数据收集、模型训练以及部署优化等方面的困难。本文提出了一种针对驾驶场景中多模态模型优化的综合方法,包括锥桶检测、交通灯识别、限速推荐和路口警报等功能。该方法涵盖了动态提示优化、数据集构建、模型训练和部署等关键方面。具体而言,动态提示优化根据输入图像内容调整提示信息,聚焦影响本车的物体,增强模型的任务特定聚焦和判断能力。数据集通过结合真实数据和合成数据构建,形成高质量且多样化的多模态训练数据集,提高模型在复杂驾驶环境中的泛化能力。在模型训练中,采用知识蒸馏、动态微调和量化等先进技术,降低存储和计算成本的同时提升性能。实验结果表明,这种系统性优化方法不仅显著提升了模型在关键任务上的准确性,还实现了高效的资源利用,为驾驶场景感知技术的实际应用提供了有力支持。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.