计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月10日
]
标题: 多模态数据集用于增强工业任务监控和参与度预测
标题: A Multimodal Dataset for Enhancing Industrial Task Monitoring and Engagement Prediction
摘要: 检测和解释动态工业工作流中的操作行为、参与度和物体交互仍然是人机协作研究中的重大挑战,尤其是在复杂的真实环境中。传统的单模态方法往往难以捕捉这些非结构化工业环境的复杂性。为了解决这一差距,我们提出一个新颖的多模态工业活动监测(MIAM)数据集,该数据集捕捉了现实中的装配和拆卸任务,有助于评估关键的元任务,如动作定位、物体交互和参与度预测。该数据集包含从22个会话中收集的多视角RGB、深度和惯性测量单元(IMU)数据,总计290分钟未剪辑视频,并对任务执行和操作员行为进行了详细标注。其独特之处在于多种数据模态的集成以及对真实、未剪辑工业工作流的重点关注——这对于推动人机协作和操作员监控的研究至关重要。此外,我们提出了一种多模态网络,融合RGB帧、IMU数据和骨骼序列以预测工业任务中的参与度。我们的方法提高了识别参与状态的准确性,为在动态工业环境中监控操作员表现提供了稳健的解决方案。数据集和代码可从https://github.com/navalkishoremehta95/MIAM/获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.