计算机科学 > 硬件架构
[提交于 2025年7月19日
]
标题: 在边缘实现混合视觉变换器(ViT)网络的高效硬件加速
标题: Enabling Efficient Hardware Acceleration of Hybrid Vision Transformer (ViT) Networks at the Edge
摘要: 混合视觉变压器结合传统神经网络(NN)和视觉变压器(ViT)的元素,以实现轻量级和精确的检测。 然而,它们在资源受限的边缘设备上的高效部署仍面临一些挑战。 混合模型由于存在广泛多样的NN层类型和大型中间数据张量,阻碍了高效的硬件加速。 为了在边缘执行,本文在硬件-调度堆栈中提出了创新:a.) 在最低级别,一个可配置的PE数组支持所有混合ViT层类型;b.) 在同一层内的时间循环重新排序,使硬件支持归一化和softmax层,最小化片上数据传输;c.) 进一步的调度优化利用反向瓶颈层之间的层融合,大幅减少片外内存传输。 所得到的加速器采用28nm CMOS实现,达到25.6 GMACs/s时的峰值能效1.39 TOPS/W。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.