计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月30日
]
标题: CS-VLM:用于高效视觉-语言表示学习的压缩感知注意力
标题: CS-VLM: Compressed Sensing Attention for Efficient Vision-Language Representation Learning
摘要: 视觉-语言模型(vLLMs)已成为在视觉和文本输入上进行联合推理的强大架构,使图像描述、跨模态检索和多模态对话等领域取得了突破。 然而,随着这些模型扩展到更长的视频序列和更丰富的语言描述,标准注意力机制的二次复杂度带来了基本的计算瓶颈。 在vLLMs中,这一挑战更加严重,因为注意力不仅需要在模态内部计算,还需要在模态之间计算,导致高昂的内存和延迟成本。 在这项工作中,我们引入了压缩感知注意力变换器(CSAT),这是一种通过压缩感知视角重新构想注意力计算的新架构。 通过使用随机测量矩阵将高维键和值表示投影到低维子空间,并利用稀疏恢复算法重建注意力输出,CSAT显著降低了注意力复杂度,同时保持了语义保真度。 应用于vLLMs时,CSAT利用了视觉和文本表示的固有可压缩性,尤其是在视频中,时间冗余较高,以及在语言中,跨模态定位通常较为稀疏。 与必须经常建模纠缠符号依赖关系的LLMs不同,vLLMs受益于对齐和场景组合中的结构稀疏性,这使得它们特别适合压缩注意力。 我们提供了CSAT的形式化数学处理,展示了其在视觉语言流程中的集成,并在标准基准上验证了其性能,突显了其作为下一代多模态变换器的可扩展、可解释和资源高效解决方案的前景。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.