Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.02020v1

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.02020v1 (cs)
[提交于 2025年5月28日 ]

标题: 通过显式硬负样本梯度放大改进多模态嵌入学习

标题: Improve Multi-Modal Embedding Learning via Explicit Hard Negative Gradient Amplifying

Authors:Youze Xue, Dian Li, Gang Liu
摘要: 随着近年来多模态大型语言模型(MLLMs)的快速发展,基础的对比语言-图像预训练(CLIP)框架已成功扩展到MLLMs,为广泛的检索任务提供了更强大且通用的多模态嵌入。尽管取得了这些进展,从CLIP风格模型到MLLMs的核心对比学习范式基本没有改变。在此框架内,有效挖掘困难负样本仍然是提升性能的关键因素。以往的工作引入了离线和在线策略来挖掘困难负样本,以提高对比学习的效率。虽然这些方法改进了多模态嵌入,但每个困难负样本对学习过程的具体贡献尚未被深入研究。在这项工作中,我们详细分析了info-NCE损失函数关于查询、正样本和负样本的梯度,阐明了困难负样本在更新模型参数中的作用。基于此分析,我们提出显式放大与困难负样本相关的梯度,从而鼓励模型学习更具区分性的嵌入。我们的多模态嵌入模型采用所提出的显式梯度放大器,并基于LLaVA-OneVision-7B架构,在MMEB基准测试中相比利用相同MLLM主干的先前方法实现了最先进的性能。此外,当与我们自主研发的MLLM QQMM结合时,我们的方法在MMEB排行榜上达到了顶级排名。代码和模型已在https://github.com/QQ-MM/QQMM-embed 上发布。
摘要: With the rapid advancement of multi-modal large language models (MLLMs) in recent years, the foundational Contrastive Language-Image Pretraining (CLIP) framework has been successfully extended to MLLMs, enabling more powerful and universal multi-modal embeddings for a wide range of retrieval tasks. Despite these developments, the core contrastive learning paradigm remains largely unchanged from CLIP-style models to MLLMs. Within this framework, the effective mining of hard negative samples continues to be a critical factor for enhancing performance. Prior works have introduced both offline and online strategies for hard negative mining to improve the efficiency of contrastive learning. While these approaches have led to improved multi-modal embeddings, the specific contribution of each hard negative sample to the learning process has not been thoroughly investigated. In this work, we conduct a detailed analysis of the gradients of the info-NCE loss with respect to the query, positive, and negative samples, elucidating the role of hard negatives in updating model parameters. Building upon this analysis, we propose to explicitly amplify the gradients associated with hard negative samples, thereby encouraging the model to learn more discriminative embeddings. Our multi-modal embedding model, trained with the proposed Explicit Gradient Amplifier and based on the LLaVA-OneVision-7B architecture, achieves state-of-the-art performance on the MMEB benchmark compared to previous methods utilizing the same MLLM backbone. Furthermore, when integrated with our self-developed MLLM, QQMM, our approach attains the top rank on the MMEB leaderboard. Code and models are released on https://github.com/QQ-MM/QQMM-embed.
主题: 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
引用方式: arXiv:2506.02020 [cs.CV]
  (或者 arXiv:2506.02020v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.02020
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Youze Xue [查看电子邮件]
[v1] 星期三, 2025 年 5 月 28 日 11:18:19 UTC (323 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号