计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: MoDA:用于细粒度视觉接地的指令调优大模型的调制适配器
标题: MoDA: Modulation Adapter for Fine-Grained Visual Grounding in Instructional MLLMs
摘要: 近期,多模态大型语言模型(MLLMs)通过集成预训练的视觉编码器与大型语言模型(LLMs),在指令跟随任务上展示了令人印象深刻的性能。然而,现有方法通常难以在复杂场景中定位细粒度的视觉概念。 本文提出了一种轻量且有效的模块 MoDA(调制适配器),旨在通过指令引导的调制来优化预对齐的视觉特征。我们的方法遵循标准的 LLaVA 训练协议,包括两个阶段:(1) 使用冻结的视觉编码器和适配层将图像特征对齐到 LLMs 输入空间;(2) 在指令微调阶段使用 MoDA 适配器优化这些特征。MoDA 使用基于 Transformer 的交叉注意力机制,在对齐的视觉标记上生成调制掩码,从而根据语言指令强调语义相关的嵌入维度。调制后的特征随后传递给 LLM 进行自回归语言生成。 实验评估表明,MoDA 提升了视觉定位能力,并生成了更符合上下文的响应,证明了它作为基于图像的 MLLMs 通用增强模块的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.