Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.08367

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.08367 (cs)
[提交于 2025年7月11日 ]

标题: 使用大型语言模型理解驾驶风险:面向老年驾驶员评估

标题: Understanding Driving Risks using Large Language Models: Toward Elderly Driver Assessment

Authors:Yuki Yoshihara, Linjing Jiang, Nihan Karatas, Hitoshi Kanamori, Asuka Harada, Takahiro Tanaka
摘要: 本研究探讨了多模态大型语言模型(LLM),特别是ChatGPT-4o,在使用静态行车记录仪图像进行类似人类的交通场景解释方面的潜力。本文重点研究与老年驾驶员评估相关的三个判断任务:评估交通密度、评估交叉口可视性以及识别停车标志。这些任务需要上下文推理,而不是简单的物体检测。我们使用零样本、少样本和多样本提示策略,以人工标注作为参考标准来评估模型性能。评估指标包括精确率、召回率和F1分数。结果表明,提示设计显著影响性能,交叉口可视性的召回率从21.7%(零样本)增加到57.0%(多样本)。对于交通密度,一致性从53.5%增加到67.6%。在停车标志检测中,模型表现出高精确率(最高达86.3%),但召回率较低(约76.7%),表明其响应倾向较为保守。输出稳定性分析显示,人类和模型在解释结构模糊的场景时都面临困难。然而,模型的解释性文本与其预测相一致,提高了可解释性。这些发现表明,通过精心设计的提示,LLM在场景级驾驶风险评估中具有作为辅助工具的潜力。未来的研究应探索使用更大数据集、多样化标注者和新一代模型架构在老年驾驶员评估中的可扩展性。
摘要: This study investigates the potential of a multimodal large language model (LLM), specifically ChatGPT-4o, to perform human-like interpretations of traffic scenes using static dashcam images. Herein, we focus on three judgment tasks relevant to elderly driver assessments: evaluating traffic density, assessing intersection visibility, and recognizing stop signs recognition. These tasks require contextual reasoning rather than simple object detection. Using zero-shot, few-shot, and multi-shot prompting strategies, we evaluated the performance of the model with human annotations serving as the reference standard. Evaluation metrics included precision, recall, and F1-score. Results indicate that prompt design considerably affects performance, with recall for intersection visibility increasing from 21.7% (zero-shot) to 57.0% (multi-shot). For traffic density, agreement increased from 53.5% to 67.6%. In stop-sign detection, the model demonstrated high precision (up to 86.3%) but a lower recall (approximately 76.7%), indicating a conservative response tendency. Output stability analysis revealed that humans and the model faced difficulties interpreting structurally ambiguous scenes. However, the model's explanatory texts corresponded with its predictions, enhancing interpretability. These findings suggest that, with well-designed prompts, LLMs hold promise as supportive tools for scene-level driving risk assessments. Future studies should explore scalability using larger datasets, diverse annotators, and next-generation model architectures for elderly driver assessments.
主题: 计算机视觉与模式识别 (cs.CV) ; 系统与控制 (eess.SY)
引用方式: arXiv:2507.08367 [cs.CV]
  (或者 arXiv:2507.08367v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.08367
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yuki Yoshihara [查看电子邮件]
[v1] 星期五, 2025 年 7 月 11 日 07:28:49 UTC (8,824 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.SY
eess
eess.SY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号