计算机科学 > 机器学习
[提交于 2025年7月2日
]
标题: mGRADE:最小循环门控与延迟卷积用于轻量级序列建模
标题: mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling
摘要: 边缘设备用于时间处理需要在严格的内存约束下捕捉短期和长期动态的模型。 虽然Transformer在序列建模方面表现出色,但它们的内存消耗随序列长度呈二次增长,这使得它们在这些场景中不切实际。 循环神经网络(RNNs)具有恒定的内存,但训练是顺序进行的,而时间卷积网络(TCNs)虽然高效,但内存消耗随着内核大小增加。 为了解决这个问题,我们提出了mGRADE(带有延迟嵌入的最小门控循环架构),这是一种混合内存系统,结合了带有可学习间隔的时间1D卷积,随后是一个最小门控循环单元(minGRU)。 这种设计使卷积层能够实现灵活的延迟嵌入,以捕捉快速的时间变化,同时循环模块以最小的内存开销有效地保持全局上下文。 我们在两个合成任务上验证了我们的方法,结果表明mGRADE能够有效分离并保留多尺度的时间特征。 此外,在具有挑战性的逐像素图像分类基准测试中,mGRADE在使用大约20%更少的内存占用的情况下,始终优于纯卷积和纯循环模型,突显了其在边缘设备上内存受限的时间处理中的适用性。 这突显了mGRADE作为边缘设备上内存受限的多尺度时间处理的高效解决方案的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.