计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月21日
]
标题: DRAMA-X:面向驾驶的细粒度意图预测与风险推理基准
标题: DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving
摘要: 理解易受伤害道路使用者(VRUs)如行人和骑自行车者的短期运动对于安全的自动驾驶至关重要,尤其是在存在模糊或高风险行为的城市场景中。 虽然视觉语言模型(VLMs)已经实现了开放词汇感知,但它们在细粒度意图推理中的应用仍缺乏深入研究。 值得注意的是,目前没有现有的基准测试评估安全关键情境下的多类意图预测。为解决这一差距,我们引入了DRAMA-X,这是一个通过自动化标注流程从DRAMA数据集中构建的细粒度基准。 DRAMA-X包含5,686帧容易发生事故的图像,这些图像带有物体边界框、九类方向意图分类法、二进制风险评分、为自车生成的专家动作建议以及描述性运动总结。 这些标注使得对自动驾驶决策核心的四个相互关联任务进行结构化评估成为可能:物体检测、意图预测、风险评估和动作建议。 作为参考基线,我们提出了SGG-Intent,这是一种轻量级、无需训练的框架,模拟了自车的推理流程。 它依次使用基于VLM的检测器从视觉输入生成场景图,推断意图,评估风险,并通过由大型语言模型驱动的组合推理阶段推荐动作。 我们评估了一系列最近的VLMs,在所有四个DRAMA-X任务中比较了性能。 我们的实验表明,基于场景图的推理提高了意图预测和风险评估,特别是在显式建模上下文线索时效果更明显。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.