计算机科学 > 硬件架构
[提交于 2025年7月9日
(v1)
,最后修订 2025年7月16日 (此版本, v2)]
标题: 光子-ViT:一种基于硅光子学的近传感器感兴趣区域感知视觉变换器加速器
标题: Opto-ViT: Architecting a Near-Sensor Region of Interest-Aware Vision Transformer Accelerator with Silicon Photonics
摘要: 视觉变压器(ViTs)由于其能够建模长距离依赖关系和全局上下文关系,已成为计算机视觉任务的强大架构。 然而,它们巨大的计算和内存需求阻碍了在具有严格能耗和带宽限制的场景中的高效部署。 在本工作中,我们提出了OptoViT,这是第一个近传感器、区域感知的ViT加速器,利用硅光子学(SiPh)实现实时且节能的视觉处理。 Opto-ViT具有混合电子-光子架构,其中光学核心使用垂直腔面发射激光器(VCSELs)和微环谐振器(MRs)执行计算密集型矩阵乘法,而非线性函数和归一化则通过电子方式执行。 为了减少冗余计算和块处理,我们引入了一个轻量级的掩码生成网络(MGNet),该网络识别当前帧中的感兴趣区域,并在ViT编码之前修剪无关的块。 我们进一步通过针对光子约束量化的训练和矩阵分解对ViT主干进行共同优化。 在器件制造、电路和架构协同设计,到分类、检测和视频任务的实验表明,OptoViT在准确率损失小于1.6%的情况下实现了高达84%的能耗节省,达到100.4 KFPS/W的性能,同时实现了边缘处可扩展且高效的ViT部署。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.