计算机科学 > 硬件架构
[提交于 2025年7月10日
]
标题: 基于FPGA的边缘设备上的转置卷积加速
标题: Accelerating Transposed Convolutions on FPGA-based Edge Devices
摘要: 转置卷积(TCONV)在生成式人工智能(AI)模型中实现了上采样机制。 然而,用于实现TCONV的主要输入导向映射(IOM)方法具有复杂的输出映射、重叠求和和低效计算。 这些低效率进一步加剧了TCONV和生成式模型在资源受限的边缘设备上的性能瓶颈。 为了解决这个问题,本文我们提出了MM2IM,一种软硬件协同设计的加速器,将矩阵乘法(MatMul)与col2IM结合,以在资源受限的边缘设备上高效处理TCONV层。 使用SECDA-TFLite设计工具包,我们实现了MM2IM,并在261个TCONV问题配置上评估了其性能,相对于双线程ARM Neon优化的CPU基线平均加速了1.9倍。 然后,我们在一系列来自知名生成式模型的TCONV层上评估了MM2IM的性能,最高加速比达到4.2倍,并将其与类似的资源受限的TCONV加速器进行比较,至少高出2x GOPs/DSP。 最后,我们在DCGAN和pix2pix GAN模型上评估了MM2IM,相对于CPU基线最高加速比达到3倍,能耗降低2.4倍。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.