Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.01674

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.01674 (cs)
[提交于 2025年6月2日 ]

标题: MotionSight:提升多模态大型语言模型中的精细动作理解

标题: MotionSight: Boosting Fine-Grained Motion Understanding in Multimodal LLMs

Authors:Yipeng Du, Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Xiang Li, Jian Yang, Zhenheng Yang, Ying Tai
摘要: 尽管多模态大型语言模型(MLLMs)取得了进展,但它们在细粒度视频运动理解方面的能力仍然严重受限。它们通常缺乏帧间差异,并倾向于平均或忽略微妙的视觉线索。此外,虽然视觉提示在静态图像中显示出潜力,但将其应用于视频的时间复杂性,特别是针对细粒度运动理解的应用,仍未得到充分探索。我们研究了是否可以解锁MLLMs的固有能力,提升其运动感知,并生成针对分离物体和相机运动线索的独特视觉特征。在这项研究中,我们提出了MotionSight,这是一种开创性的零样本方法,以对象为中心的视觉聚光灯和运动模糊作为视觉提示,有效提升了细粒度运动理解,而无需训练。为了将其转化为有价值的数据资产,我们创建了MotionVid-QA,这是首个用于细粒度视频运动理解的大规模数据集,包含分层注释,包括SFT和偏好数据,以及{\Theta }(40K)个视频片段和{\Theta }(87K)个问答。实验表明,MotionSight实现了最先进的开源性能,并与商业模型具有竞争力。特别是,我们提出了一种新的零样本技术以及一个大规模、高质量的数据集。所有代码和注释都将公开可用。
摘要: Despite advancements in Multimodal Large Language Models (MLLMs), their proficiency in fine-grained video motion understanding remains critically limited. They often lack inter-frame differencing and tend to average or ignore subtle visual cues. Furthermore, while visual prompting has shown potential in static images, its application to video's temporal complexities, particularly for fine-grained motion understanding, remains largely unexplored. We investigate whether inherent capability can be unlocked and boost MLLMs' motion perception and enable distinct visual signatures tailored to decouple object and camera motion cues. In this study, we introduce MotionSight, a novel zero-shot method pioneering object-centric visual spotlight and motion blur as visual prompts to effectively improve fine-grained motion understanding without training. To convert this into valuable data assets, we curated MotionVid-QA, the first large-scale dataset for fine-grained video motion understanding, with hierarchical annotations including SFT and preference data, {\Theta}(40K) video clips and {\Theta}(87K) QAs. Experiments show MotionSight achieves state-of-the-art open-source performance and competitiveness with commercial models. In particular, for fine-grained motion understanding we present a novel zero-shot technique and a large-scale, high-quality dataset. All the code and annotations will be publicly available.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.01674 [cs.CV]
  (或者 arXiv:2506.01674v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.01674
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tiehan Fan [查看电子邮件]
[v1] 星期一, 2025 年 6 月 2 日 13:44:56 UTC (4,749 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号