Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.17590

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.17590 (cs)
[提交于 2025年6月21日 ]

标题: DRAMA-X:面向驾驶的细粒度意图预测与风险推理基准

标题: DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving

Authors:Mihir Godbole, Xiangbo Gao, Zhengzhong Tu
摘要: 理解易受伤害道路使用者(VRUs)如行人和骑自行车者的短期运动对于安全的自动驾驶至关重要,尤其是在存在模糊或高风险行为的城市场景中。 虽然视觉语言模型(VLMs)已经实现了开放词汇感知,但它们在细粒度意图推理中的应用仍缺乏深入研究。 值得注意的是,目前没有现有的基准测试评估安全关键情境下的多类意图预测。为解决这一差距,我们引入了DRAMA-X,这是一个通过自动化标注流程从DRAMA数据集中构建的细粒度基准。 DRAMA-X包含5,686帧容易发生事故的图像,这些图像带有物体边界框、九类方向意图分类法、二进制风险评分、为自车生成的专家动作建议以及描述性运动总结。 这些标注使得对自动驾驶决策核心的四个相互关联任务进行结构化评估成为可能:物体检测、意图预测、风险评估和动作建议。 作为参考基线,我们提出了SGG-Intent,这是一种轻量级、无需训练的框架,模拟了自车的推理流程。 它依次使用基于VLM的检测器从视觉输入生成场景图,推断意图,评估风险,并通过由大型语言模型驱动的组合推理阶段推荐动作。 我们评估了一系列最近的VLMs,在所有四个DRAMA-X任务中比较了性能。 我们的实验表明,基于场景图的推理提高了意图预测和风险评估,特别是在显式建模上下文线索时效果更明显。
摘要: Understanding the short-term motion of vulnerable road users (VRUs) like pedestrians and cyclists is critical for safe autonomous driving, especially in urban scenarios with ambiguous or high-risk behaviors. While vision-language models (VLMs) have enabled open-vocabulary perception, their utility for fine-grained intent reasoning remains underexplored. Notably, no existing benchmark evaluates multi-class intent prediction in safety-critical situations, To address this gap, we introduce DRAMA-X, a fine-grained benchmark constructed from the DRAMA dataset via an automated annotation pipeline. DRAMA-X contains 5,686 accident-prone frames labeled with object bounding boxes, a nine-class directional intent taxonomy, binary risk scores, expert-generated action suggestions for the ego vehicle, and descriptive motion summaries. These annotations enable a structured evaluation of four interrelated tasks central to autonomous decision-making: object detection, intent prediction, risk assessment, and action suggestion. As a reference baseline, we propose SGG-Intent, a lightweight, training-free framework that mirrors the ego vehicle's reasoning pipeline. It sequentially generates a scene graph from visual input using VLM-backed detectors, infers intent, assesses risk, and recommends an action using a compositional reasoning stage powered by a large language model. We evaluate a range of recent VLMs, comparing performance across all four DRAMA-X tasks. Our experiments demonstrate that scene-graph-based reasoning enhances intent prediction and risk assessment, especially when contextual cues are explicitly modeled.
评论: 19页,5张图表,预印本正在审阅中。代码可在以下链接获取:https://github.com/taco-group/DRAMA-X
主题: 计算机视觉与模式识别 (cs.CV) ; 人工智能 (cs.AI); 机器人技术 (cs.RO)
引用方式: arXiv:2506.17590 [cs.CV]
  (或者 arXiv:2506.17590v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.17590
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Mihir Sunil Godbole [查看电子邮件]
[v1] 星期六, 2025 年 6 月 21 日 05:01:42 UTC (3,811 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.CV
cs.RO

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号