计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
]
标题: 并非所有注意力头都是你需要的:通过注意力消融精炼CLIP的图像表示
标题: Not All Attention Heads Are What You Need: Refining CLIP's Image Representation with Attention Ablation
摘要: 本文研究了CLIP图像编码器中注意力头的作用。 虽然CLIP在各种应用中表现出强大的性能,但我们假设某些注意力头会负面影响最终表示,并且消除它们可以提高下游任务的性能。 为了利用这一见解,我们提出了一种简单而有效的方法,称为注意力消融技术(AAT),通过操作注意力权重来抑制特定头的贡献。 通过整合两种针对不同应用场景的替代策略,AAT系统地识别并消融有害的注意力头,以提高表示质量。 实验表明,AAT在多个领域中始终能够提升下游任务的性能,在跨模态检索中,CLIP系列模型的召回率最高提升了11.1%。 结果突显了AAT在几乎不增加推理成本的情况下有效优化大规模视觉-语言模型的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.