Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.07683v1

帮助 | 高级搜索

计算机科学 > 硬件架构

arXiv:2507.07683v1 (cs)
[提交于 2025年7月10日 ]

标题: 基于FPGA的边缘设备上的转置卷积加速

标题: Accelerating Transposed Convolutions on FPGA-based Edge Devices

Authors:Jude Haris, José Cano
摘要: 转置卷积(TCONV)在生成式人工智能(AI)模型中实现了上采样机制。 然而,用于实现TCONV的主要输入导向映射(IOM)方法具有复杂的输出映射、重叠求和和低效计算。 这些低效率进一步加剧了TCONV和生成式模型在资源受限的边缘设备上的性能瓶颈。 为了解决这个问题,本文我们提出了MM2IM,一种软硬件协同设计的加速器,将矩阵乘法(MatMul)与col2IM结合,以在资源受限的边缘设备上高效处理TCONV层。 使用SECDA-TFLite设计工具包,我们实现了MM2IM,并在261个TCONV问题配置上评估了其性能,相对于双线程ARM Neon优化的CPU基线平均加速了1.9倍。 然后,我们在一系列来自知名生成式模型的TCONV层上评估了MM2IM的性能,最高加速比达到4.2倍,并将其与类似的资源受限的TCONV加速器进行比较,至少高出2x GOPs/DSP。 最后,我们在DCGAN和pix2pix GAN模型上评估了MM2IM,相对于CPU基线最高加速比达到3倍,能耗降低2.4倍。
摘要: Transposed Convolutions (TCONV) enable the up-scaling mechanism within generative Artificial Intelligence (AI) models. However, the predominant Input-Oriented Mapping (IOM) method for implementing TCONV has complex output mapping, overlapping sums, and ineffectual computations. These inefficiencies further exacerbate the performance bottleneck of TCONV and generative models on resource-constrained edge devices. To address this problem, in this paper we propose MM2IM, a hardware-software co-designed accelerator that combines Matrix Multiplication (MatMul) with col2IM to process TCONV layers on resource-constrained edge devices efficiently. Using the SECDA-TFLite design toolkit, we implement MM2IM and evaluate its performance across 261 TCONV problem configurations, achieving an average speedup of 1.9x against a dual-thread ARM Neon optimized CPU baseline. We then evaluate the performance of MM2IM on a range of TCONV layers from well-known generative models achieving up to 4.2x speedup, and compare it against similar resource-constrained TCONV accelerators, outperforming them by at least 2x GOPs/DSP. Finally, we evaluate MM2IM on the DCGAN and pix2pix GAN models, achieving up to 3x speedup and 2.4x energy reduction against the CPU baseline.
评论: 被第35届国际现场可编程逻辑与应用会议(FPL)2025接收
主题: 硬件架构 (cs.AR) ; 分布式、并行与集群计算 (cs.DC); 机器学习 (cs.LG)
引用方式: arXiv:2507.07683 [cs.AR]
  (或者 arXiv:2507.07683v1 [cs.AR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.07683
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Jude Haris Dr [查看电子邮件]
[v1] 星期四, 2025 年 7 月 10 日 12:05:33 UTC (1,474 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.DC
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号