计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: 基于视觉变换器和位置嵌入的泛北极永久冻土地貌与人类建筑基础设施特征检测
标题: Pan-Arctic Permafrost Landform and Human-built Infrastructure Feature Detection with Vision Transformers and Location Embeddings
摘要: 利用亚米级卫星影像在全球北极范围内准确绘制永久冻土地貌、融沉扰动和人类建筑基础设施变得日益关键。 处理宠物字节规模的图像数据需要高性能计算和强大的特征检测模型。 虽然基于卷积神经网络(CNN)的深度学习方法广泛用于遥感(RS),类似于基于转换器的大语言模型的成功,视觉转换器(ViTs)通过注意力机制在捕捉长距离依赖关系和全局上下文方面具有优势。 ViTs支持通过自监督学习进行预训练——解决了北极特征检测中标记数据的常见限制,并在基准数据集上优于CNN。 北极也对模型泛化提出了挑战,尤其是当具有相同语义类别的特征表现出不同的光谱特性时。 为了解决这些北极特征检测问题,我们将地理空间位置嵌入集成到ViTs中,以提高跨区域的适应能力。 本研究探讨了:(1)预训练的ViTs作为高分辨率北极遥感任务特征提取器的适用性,以及(2)结合图像嵌入和位置嵌入的优势。 使用之前发布的北极特征检测数据集,我们在三项任务上评估我们的模型——检测冰楔多边形(IWP)、退化融沉滑坡(RTS)和人类建筑基础设施。 我们通过实证探索了多种配置来融合图像嵌入和位置嵌入。 结果显示,带有位置嵌入的ViTs在三项任务中的两项上优于之前的基于CNN的模型,包括RTS检测的F1分数从0.84提高到0.92,展示了具有空间意识的基于转换器的模型在北极遥感应用中的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.