计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月8日
]
标题: 通过看到更少来学习更多:用于高效、可迁移和与人类对齐视觉的线条图预训练
标题: Learning More by Seeing Less: Line Drawing Pretraining for Efficient, Transferable, and Human-Aligned Vision
摘要: 尽管计算机视觉领域取得了显著进展,现代识别系统仍然受限于其对丰富且冗余的视觉输入的依赖。 相比之下,人类可以轻松理解稀疏、最小的表示形式,如线条图——这表明结构而非外观是高效视觉理解的基础。 在本工作中,我们提出使用线条图作为以结构为先的预训练模态,以诱导更紧凑和可泛化的视觉表示。 我们证明,基于线条图预训练的模型在分类、检测和分割任务中表现出更强的形状偏差、更集中的注意力以及更高的数据效率。 值得注意的是,这些模型还表现出更低的内在维度,需要显著更少的主成分来捕捉表示方差——这与大脑中低维高效表示的类似观察结果相呼应。 除了性能提升外,线条图预训练生成的表示更具可压缩性,从而能够更好地蒸馏到轻量级学生模型中。 从线条预训练教师模型中蒸馏出的学生模型始终优于从颜色监督教师模型中训练得到的模型,突显了结构紧凑知识的优势。 最后,我们展示了通过我们提出的“学习绘画”方法,线条图预训练也可以扩展到无监督设置。 总之,我们的结果支持这样的观点:以结构为先的视觉学习促进了效率、泛化能力和与人类一致的归纳偏差——为构建更鲁棒和适应性强的视觉系统提供了一种简单而强大的策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.