计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月7日
]
标题: CRAM:具有自举压缩的大规模视频持续学习
标题: CRAM: Large-scale Video Continual Learning with Bootstrapped Compression
摘要: 持续学习(CL)有望使神经网络能够从连续的数据流中学习,而不是依赖于独立同分布(IID)采样,后者需要随机访问完整数据集。 这将允许部署的系统具有更小的存储需求和自给自足性,从而应对自然分布变化,类似于生物学习。 我们专注于基于重放的视频CL方法,该方法通过记忆缓冲区强化过去的样本。 我们认为实际视频CL具有挑战性的一个原因是视频的高内存需求,再加上长视频和持续数据流,这与常见的重放缓冲区大小限制相冲突。 为了解决这个问题,我们提议使用压缩视觉,即存储视频代码(嵌入)而不是原始输入,并通过从滚动缓冲区进行IID采样来训练视频分类器。 在线训练视频压缩器(不依赖任何预训练网络)意味着它也会受到灾难性遗忘的影响。 我们提出了一种处理这种遗忘的方案,通过刷新视频代码,这需要使用网络的先前版本进行仔细解压缩,并使用新版本重新压缩。 我们将我们的方法命名为持续刷新模态记忆(CRAM)。 我们扩展了当前的视频CL基准测试到大规模设置,即EpicKitchens-100和Kinetics-700,在不到2GB的存储中存储数千个相对较长的视频,并通过实验证明,我们的视频CL方法在显著减少内存占用的情况下优于现有技术。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.