计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: 具有神经启发前端的显式建模子皮层视觉可提高CNN鲁棒性
标题: Explicitly Modeling Subcortical Vision with a Neuro-Inspired Front-End Improves CNN Robustness
摘要: 基于物体识别训练的卷积神经网络(CNN)在任务表现上很高,但与生物视觉相比,在各种视觉扰动和域外图像下仍然表现出脆弱性。先前的研究表明,将标准CNN与前端块(VOneBlock)耦合,该块模仿灵长类初级视觉皮层(V1),可以提高整体模型的鲁棒性。 在此基础上,我们引入了早期视觉网络(EVNets),这是一种新的混合CNN类别,它结合了VOneBlock和一种新颖的SubcorticalBlock,其架构借鉴了神经科学中的计算模型,并且参数化以最大化与多个实验研究中报告的亚皮质响应的一致性。 无需优化即可实现SubcorticalBlock与VOneBlock的组合,在大多数标准V1基准测试中提高了V1一致性,并更好地模拟了经典感受野之外的现象。 此外,EVNets表现出更强的形状偏差,并在包括对抗性扰动、常见腐败和领域转移在内的鲁棒性评估综合基准测试中比基础CNN架构高出8.5%。 最后,我们显示当与最先进的数据增强技术配对时,EVNets可以进一步改进,从而在我们的鲁棒性基准测试中比单独的数据增强方法高出7.3%的性能。 这一结果揭示了在模仿生物方面改变架构和基于训练的机器学习方法之间的互补优势。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.