计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月14日
]
标题: 空间提升用于密集预测
标题: Spatial Lifting for Dense Prediction
摘要: 我们提出空间提升(Spatial Lifting,SL),一种用于密集预测任务的新方法。 SL 通过将标准输入(如 2D 图像)提升到更高维空间,然后使用为该高维设计的网络进行处理,例如 3D U-Net。 出人意料的是,这种维度提升使我们在与传统方法相比的基准任务上实现了良好的性能,同时降低了推理成本并显著减少了模型参数数量。 SL 框架在提升的维度上产生内在结构化的输出。 这种涌现的结构在训练期间促进了密集监督,并在测试时实现了鲁棒的、几乎无额外成本的预测质量评估。 我们在 19 个基准数据集(13 个用于语义分割,6 个用于深度估计)上验证了我们的方法,展示了具有竞争力的密集预测性能,同时将模型参数数量减少了超过 98%(在 U-Net 的情况下),并降低了推理成本。 空间提升引入了一种新的视觉建模范式,为视觉中的密集预测任务提供了更高效、准确和可靠的深度网络的有希望的路径。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.