Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.02868v1

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.02868v1 (cs)
[提交于 2025年6月3日 ]

标题: 基于视觉变换器和位置嵌入的泛北极永久冻土地貌与人类建筑基础设施特征检测

标题: Pan-Arctic Permafrost Landform and Human-built Infrastructure Feature Detection with Vision Transformers and Location Embeddings

Authors:Amal S. Perera, David Fernandez, Chandi Witharana, Elias Manos, Michael Pimenta, Anna K. Liljedahl, Ingmar Nitze, Yili Yang, Todd Nicholson, Chia-Yu Hsu, Wenwen Li, Guido Grosse
摘要: 利用亚米级卫星影像在全球北极范围内准确绘制永久冻土地貌、融沉扰动和人类建筑基础设施变得日益关键。 处理宠物字节规模的图像数据需要高性能计算和强大的特征检测模型。 虽然基于卷积神经网络(CNN)的深度学习方法广泛用于遥感(RS),类似于基于转换器的大语言模型的成功,视觉转换器(ViTs)通过注意力机制在捕捉长距离依赖关系和全局上下文方面具有优势。 ViTs支持通过自监督学习进行预训练——解决了北极特征检测中标记数据的常见限制,并在基准数据集上优于CNN。 北极也对模型泛化提出了挑战,尤其是当具有相同语义类别的特征表现出不同的光谱特性时。 为了解决这些北极特征检测问题,我们将地理空间位置嵌入集成到ViTs中,以提高跨区域的适应能力。 本研究探讨了:(1)预训练的ViTs作为高分辨率北极遥感任务特征提取器的适用性,以及(2)结合图像嵌入和位置嵌入的优势。 使用之前发布的北极特征检测数据集,我们在三项任务上评估我们的模型——检测冰楔多边形(IWP)、退化融沉滑坡(RTS)和人类建筑基础设施。 我们通过实证探索了多种配置来融合图像嵌入和位置嵌入。 结果显示,带有位置嵌入的ViTs在三项任务中的两项上优于之前的基于CNN的模型,包括RTS检测的F1分数从0.84提高到0.92,展示了具有空间意识的基于转换器的模型在北极遥感应用中的潜力。
摘要: Accurate mapping of permafrost landforms, thaw disturbances, and human-built infrastructure at pan-Arctic scale using sub-meter satellite imagery is increasingly critical. Handling petabyte-scale image data requires high-performance computing and robust feature detection models. While convolutional neural network (CNN)-based deep learning approaches are widely used for remote sensing (RS),similar to the success in transformer based large language models, Vision Transformers (ViTs) offer advantages in capturing long-range dependencies and global context via attention mechanisms. ViTs support pretraining via self-supervised learning-addressing the common limitation of labeled data in Arctic feature detection and outperform CNNs on benchmark datasets. Arctic also poses challenges for model generalization, especially when features with the same semantic class exhibit diverse spectral characteristics. To address these issues for Arctic feature detection, we integrate geospatial location embeddings into ViTs to improve adaptation across regions. This work investigates: (1) the suitability of pre-trained ViTs as feature extractors for high-resolution Arctic remote sensing tasks, and (2) the benefit of combining image and location embeddings. Using previously published datasets for Arctic feature detection, we evaluate our models on three tasks-detecting ice-wedge polygons (IWP), retrogressive thaw slumps (RTS), and human-built infrastructure. We empirically explore multiple configurations to fuse image embeddings and location embeddings. Results show that ViTs with location embeddings outperform prior CNN-based models on two of the three tasks including F1 score increase from 0.84 to 0.92 for RTS detection, demonstrating the potential of transformer-based models with spatial awareness for Arctic RS applications.
评论: 20页,两栏IEEE格式,13幅图
主题: 计算机视觉与模式识别 (cs.CV)
ACM 类: I.4.6; I.5.4; I.5.2; I.2.10
引用方式: arXiv:2506.02868 [cs.CV]
  (或者 arXiv:2506.02868v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.02868
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Amal Perera [查看电子邮件]
[v1] 星期二, 2025 年 6 月 3 日 13:34:01 UTC (3,083 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号