计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月9日
(v1)
,最后修订 2025年3月14日 (此版本, v2)]
标题: LLaVA-Octopus:解锁视频理解的指令驱动自适应投影融合
标题: LLaVA-Octopus: Unlocking Instruction-Driven Adaptive Projector Fusion for Video Understanding
摘要: 在本文中,我们介绍了LLaVA-Octopus,一种新颖的视频多模态大语言模型。 LLaVA-Octopus根据用户指令自适应地加权来自不同视觉投影器的特征,使我们能够利用每个投影器的互补优势。 我们观察到,不同的视觉投影器在处理特定任务时表现出不同的特性。 例如,一些投影器在捕捉静态细节方面表现优异,而另一些则在处理时间信息方面更有效,还有一些更适合需要时间一致性的任务。 通过根据用户指令动态调整特征权重,LLaVA-Octopus动态选择并组合最合适的特征,显著提升了模型在多模态任务中的性能。 实验结果表明, LLaVA-Octopus在多个基准测试中表现出色,特别是在视频问答、长视频理解以及综合多项选择基准任务中,突显了其广泛的应用潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.