计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月1日
(v1)
,最后修订 2025年8月13日 (此版本, v2)]
标题: iSafetyBench:工业环境安全的视频-语言基准
标题: iSafetyBench: A video-language benchmark for safety in industrial environment
摘要: 视觉语言模型(VLMs)的最新进展使得在零样本设置下,跨多种视频理解任务实现了令人印象深刻的泛化能力。 然而,在高风险工业领域——在这些领域中,识别常规操作和安全关键异常情况至关重要——它们的能力仍大多未被探索。 为解决这一差距,我们引入了iSafetyBench,这是一个新的视频语言基准,专门设计用于评估工业环境中模型在正常和危险情景下的性能。 iSafetyBench包含1,100个来自现实工业环境的视频片段,用开放词汇、多标签动作标签进行标注,涵盖98个常规动作和67个危险动作类别。 每个片段都配有单标签和多标签评估的多项选择题,能够对VLMs在标准和安全关键情境下的表现进行细粒度评估。 我们在零样本条件下评估了八种最先进的视频语言模型。 尽管它们在现有的视频基准测试中表现出色,但这些模型在iSafetyBench上表现不佳,特别是在识别危险活动和多标签场景方面。 我们的结果揭示了显著的性能差距,强调了在工业应用中需要更稳健、安全感知的多模态模型。 iSafetyBench提供了一个首创的测试平台,以推动这一方向的发展。 数据集可在以下位置获取:https://github.com/iSafetyBench/data.
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.