计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: MotionSight:提升多模态大型语言模型中的精细动作理解
标题: MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs
摘要: 尽管多模态大型语言模型(MLLMs)取得了进展,但它们在细粒度视频运动理解方面的能力仍然严重受限。它们通常缺乏帧间差异,并倾向于平均或忽略微妙的视觉线索。此外,虽然视觉提示在静态图像中显示出潜力,但将其应用于视频的时间复杂性,特别是针对细粒度运动理解的应用,仍未得到充分探索。我们研究了是否可以解锁MLLMs的固有能力,提升其运动感知,并生成针对分离物体和相机运动线索的独特视觉特征。在这项研究中,我们提出了MotionSight,这是一种开创性的零样本方法,以对象为中心的视觉聚光灯和运动模糊作为视觉提示,有效提升了细粒度运动理解,而无需训练。为了将其转化为有价值的数据资产,我们创建了MotionVid-QA,这是首个用于细粒度视频运动理解的大规模数据集,包含分层注释,包括SFT和偏好数据,以及{\Theta }(40K)个视频片段和{\Theta }(87K)个问答。实验表明,MotionSight实现了最先进的开源性能,并与商业模型具有竞争力。特别是,我们提出了一种新的零样本技术以及一个大规模、高质量的数据集。所有代码和注释都将公开可用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.