计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
(v1)
,最后修订 2025年7月4日 (此版本, v3)]
标题: LLaVA-SP:通过视觉空间标记增强多模态大语言模型的视觉表示
标题: LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs
摘要: 多模态大语言模型(MLLMs)的架构通常将基于CLIP-ViT的视觉编码器与大语言模型连接起来。 虽然CLIP-ViT在捕捉全局图像特征方面表现良好,但它难以建模相邻块之间的局部关系,导致视觉表示较弱,进而影响MLLM的细节理解能力。 为了解决这个问题,我们提出了LLaVA-SP,它仅在原始视觉标记中添加六个空间视觉标记以增强视觉表示。 我们的方法具有三个关键优势:1)我们提出了一种新的投影器,使用卷积核从ViT块特征中推导出视觉空间标记,模拟两种视觉空间排序方法:“从中心区域到全局”和“从抽象到具体”。然后,应用交叉注意力机制融合细粒度的视觉信息,丰富整体视觉表示。2)我们提出了两种模型变体:LLaVA-SP-Cropping,通过逐步裁剪专注于细节特征,以及LLaVA-SP-Pooling,通过自适应池化捕捉全局语义,使模型能够处理多种视觉理解任务。3)大量实验表明,LLaVA-SP在LoRA微调后,在各种多模态基准测试中实现了显著的性能提升,在多个任务中超过了最先进的LLaVA-1.5模型,且推理延迟几乎相同。 代码和模型可在https://github.com/CnFaker/LLaVA-SP获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.