计算机科学 > 机器学习
[提交于 2025年7月17日
]
标题: DASViT:视觉变换器的可微架构搜索
标题: DASViT: Differentiable Architecture Search for Vision Transformer
摘要: 设计有效的神经网络是深度学习的核心,神经网络架构搜索(NAS)已成为自动化这一过程的强大工具。在现有的NAS方法中,可微架构搜索(DARTS)因其效率和易用性而脱颖而出,激发了许多进步。自视觉变压器(ViT)兴起以来,研究人员已将NAS应用于探索ViT架构,通常专注于宏观层面的搜索空间,并依赖于进化算法等离散方法。虽然这些方法确保了可靠性,但在发现创新架构设计方面面临挑战,需要大量的计算资源,并且耗时。为解决这些限制,我们引入了视觉变压器的可微架构搜索(DASViT),它填补了ViT可微搜索的空白,并发现了新的设计。实验表明,DASViT提供的架构打破了传统的Transformer编码器设计,在多个数据集上优于ViT-B/16,并以更少的参数和FLOPs实现了更高的效率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.