计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
(v1)
,最后修订 2025年6月4日 (此版本, v2)]
标题: 超越地球:理解微重力环境中的人类行为与场景
标题: Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments
摘要: 尽管在视频理解方面取得了显著进展,但大多数现有的数据集都局限于地球的重力条件。 然而,微重力会改变人类的动作、互动以及视觉语义,揭示了现实世界视觉系统的一个关键差距。 这为安全关键的空间应用中的领域鲁棒视频理解带来了挑战。 为了解决这一问题,我们引入了MicroG-4M,这是首个用于微重力环境下人体活动时空和语义理解的数据集。 该数据集基于真实世界的太空任务和电影模拟构建,包括4759个片段,涵盖50种动作、1238条上下文丰富的描述以及超过7000组关于宇航员活动和场景理解的问题-答案对。 MicroG-4M支持三个核心任务:细粒度多标签动作识别、时间视频描述以及视觉问答,能够全面评估微重力环境下的空间定位和语义推理能力。 我们使用最先进的模型建立了基线。 所有数据、标注和代码均可在https://github.com/LEI-QI-233/HAR-in-Space获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.