Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.00399

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.00399 (cs)
[提交于 2025年8月1日 (v1) ,最后修订 2025年8月13日 (此版本, v2)]

标题: iSafetyBench:工业环境安全的视频-语言基准

标题: iSafetyBench: A video-language benchmark for safety in industrial environment

Authors:Raiyaan Abdullah, Yogesh Singh Rawat, Shruti Vyas
摘要: 视觉语言模型(VLMs)的最新进展使得在零样本设置下,跨多种视频理解任务实现了令人印象深刻的泛化能力。 然而,在高风险工业领域——在这些领域中,识别常规操作和安全关键异常情况至关重要——它们的能力仍大多未被探索。 为解决这一差距,我们引入了iSafetyBench,这是一个新的视频语言基准,专门设计用于评估工业环境中模型在正常和危险情景下的性能。 iSafetyBench包含1,100个来自现实工业环境的视频片段,用开放词汇、多标签动作标签进行标注,涵盖98个常规动作和67个危险动作类别。 每个片段都配有单标签和多标签评估的多项选择题,能够对VLMs在标准和安全关键情境下的表现进行细粒度评估。 我们在零样本条件下评估了八种最先进的视频语言模型。 尽管它们在现有的视频基准测试中表现出色,但这些模型在iSafetyBench上表现不佳,特别是在识别危险活动和多标签场景方面。 我们的结果揭示了显著的性能差距,强调了在工业应用中需要更稳健、安全感知的多模态模型。 iSafetyBench提供了一个首创的测试平台,以推动这一方向的发展。 数据集可在以下位置获取:https://github.com/iSafetyBench/data.
摘要: Recent advances in vision-language models (VLMs) have enabled impressive generalization across diverse video understanding tasks under zero-shot settings. However, their capabilities in high-stakes industrial domains-where recognizing both routine operations and safety-critical anomalies is essential-remain largely underexplored. To address this gap, we introduce iSafetyBench, a new video-language benchmark specifically designed to evaluate model performance in industrial environments across both normal and hazardous scenarios. iSafetyBench comprises 1,100 video clips sourced from real-world industrial settings, annotated with open-vocabulary, multi-label action tags spanning 98 routine and 67 hazardous action categories. Each clip is paired with multiple-choice questions for both single-label and multi-label evaluation, enabling fine-grained assessment of VLMs in both standard and safety-critical contexts. We evaluate eight state-of-the-art video-language models under zero-shot conditions. Despite their strong performance on existing video benchmarks, these models struggle with iSafetyBench-particularly in recognizing hazardous activities and in multi-label scenarios. Our results reveal significant performance gaps, underscoring the need for more robust, safety-aware multimodal models for industrial applications. iSafetyBench provides a first-of-its-kind testbed to drive progress in this direction. The dataset is available at: https://github.com/iSafetyBench/data.
评论: 被VISION'25 - ICCV 2025研讨会接受
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.00399 [cs.CV]
  (或者 arXiv:2508.00399v2 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.00399
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Raiyaan Abdullah [查看电子邮件]
[v1] 星期五, 2025 年 8 月 1 日 07:55:53 UTC (8,018 KB)
[v2] 星期三, 2025 年 8 月 13 日 21:09:02 UTC (8,018 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号