计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月30日
]
标题: SiLVR:一种基于语言的视频推理框架
标题: SiLVR: A Simple Language-based Video Reasoning Framework
摘要: 测试时优化的最新进展使大型语言模型(LLMs)具备了显著的推理能力,使其能够解决高度复杂的数学和编码问题。然而,多模态大型语言模型(MLLMs)的推理能力仍明显滞后,尤其是在复杂的视频-语言任务方面。 为了解决这个问题,我们提出了SiLVR,一个基于简单语言的视频推理框架,将复杂的视频理解分解为两个阶段。 在第一阶段,SiLVR利用多感官输入(如短视频字幕和音频/语音字幕)将原始视频转换为基于语言的表示形式。 在第二阶段,语言描述被输入到强大的推理LLM中以解决复杂的视频-语言理解任务。 为了处理长上下文的多感官输入,我们采用了一种自适应令牌减少方案,该方案动态确定采样令牌的时间粒度。 我们的简单、模块化且无需训练的视频推理框架在Video-MME(长)、Video-MMMU(理解)、Video-MMLU、CGBench和EgoLife上取得了最佳报告的结果。 此外,我们的实证研究表明,尽管没有明确针对视频进行训练,强大的推理LLM可以有效地聚合来自视频、语音和音频的多感官输入信息,用于视频中的复杂时间、因果、长上下文和知识获取推理任务。 代码可在https://github.com/CeeZh/SILVR获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.