计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月11日
]
标题: 使用大型语言模型理解驾驶风险:面向老年驾驶员评估
标题: Understanding Driving Risks using Large Language Models: Toward Elderly Driver Assessment
摘要: 本研究探讨了多模态大型语言模型(LLM),特别是ChatGPT-4o,在使用静态行车记录仪图像进行类似人类的交通场景解释方面的潜力。本文重点研究与老年驾驶员评估相关的三个判断任务:评估交通密度、评估交叉口可视性以及识别停车标志。这些任务需要上下文推理,而不是简单的物体检测。我们使用零样本、少样本和多样本提示策略,以人工标注作为参考标准来评估模型性能。评估指标包括精确率、召回率和F1分数。结果表明,提示设计显著影响性能,交叉口可视性的召回率从21.7%(零样本)增加到57.0%(多样本)。对于交通密度,一致性从53.5%增加到67.6%。在停车标志检测中,模型表现出高精确率(最高达86.3%),但召回率较低(约76.7%),表明其响应倾向较为保守。输出稳定性分析显示,人类和模型在解释结构模糊的场景时都面临困难。然而,模型的解释性文本与其预测相一致,提高了可解释性。这些发现表明,通过精心设计的提示,LLM在场景级驾驶风险评估中具有作为辅助工具的潜力。未来的研究应探索使用更大数据集、多样化标注者和新一代模型架构在老年驾驶员评估中的可扩展性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.