计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月30日
]
标题: MAMS:视频描述的模型无关模块选择框架
标题: MAMS: Model-Agnostic Module Selection Framework for Video Captioning
摘要: 多模态变压器在视频字幕任务中正迅速获得关注。 现有的多模态视频字幕方法通常提取固定数量的帧,这带来了关键挑战。 当提取有限数量的帧时,可能遗漏对字幕生成至关重要的帧。 相反,提取过多的帧会包括连续的帧,可能导致从连续视频帧中提取的视觉标记出现冗余。 为了为每个视频提取适当数量的帧,本文提出了视频字幕中的第一个与模型无关的模块选择框架,该框架有两个主要功能:(1) 根据从视频帧中提取的视觉标记选择一个适当大小的字幕生成模块,以及(2) 为所选的字幕生成模块构建视觉标记的子集。 此外,我们提出了一种新的自适应注意力掩码方案,以增强对重要视觉标记的关注。 我们在三个不同的基准数据集上的实验表明,所提出的框架显著提高了三种最近视频字幕模型的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.