计算机科学 > 计算机视觉与模式识别
[提交于 2024年11月5日
]
标题: 可迁移的多色光学编码器用于神经网络
标题: Transferable polychromatic optical encoder for neural networks
摘要: 人工神经网络(ANNs)彻底改变了计算机视觉领域,提供了前所未有的性能。 然而,这些用于图像处理的ANNs需要大量的计算资源,通常会阻碍实时操作。 在本文中,我们展示了一种光学编码器,可以在图像捕获期间同时在三个颜色通道中进行卷积,有效地实现了ANN的几个初始卷积层。 这种光学编码导致计算操作减少了约24,000倍,在自由空间光学系统中实现了最先进的分类准确率(约73.2%)。 此外,我们的模拟光学编码器,针对CIFAR-10数据进行训练,可以无需任何修改转移到ImageNet子集High-10,并且仍然表现出中等准确率。 我们的结果证明了混合光学/数字计算机视觉系统的潜力,其中光学前端可以预处理环境场景,以减少整个计算机视觉系统的能耗和延迟。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.