Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.20174v2

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.20174v2 (cs)
[提交于 2025年6月25日 (v1) ,最后修订 2025年6月26日 (此版本, v2)]

标题: 通过基础模型组合实现可扩展和通用的地球观测数据挖掘

标题: Towards Scalable and Generalizable Earth Observation Data Mining via Foundation Model Composition

Authors:Man Duc Chuc
摘要: 基础模型正在迅速改变地球观测数据挖掘,通过为场景分类和语义分割等关键任务提供可泛化和可扩展的解决方案。 尽管地理空间领域大多数努力都集中在使用大量地球观测数据集从头开始训练大型模型,但一种尚未得到充分探索的替代策略是重用和组合现有的预训练模型。 在本研究中,我们调查了在遥感和通用视觉数据集上预训练的基础模型是否可以有效结合,以提高一系列关键地球观测任务的性能。 使用GEO-Bench基准,我们在覆盖多种空间分辨率、传感器模态和任务类型的十一个数据集上评估了几种著名模型,包括Prithvi、Hiera和DOFA。 结果表明,较小的预训练模型的特征级集成可以达到或超过更大模型的性能,同时需要更少的训练时间和计算资源。 此外,该研究突出了应用知识蒸馏将集成的优势转移到更紧凑模型中的潜力,为在实际地球观测应用中部署基础模型提供了可行的路径。
摘要: Foundation models are rapidly transforming Earth Observation data mining by enabling generalizable and scalable solutions for key tasks such as scene classification and semantic segmentation. While most efforts in the geospatial domain have focused on developing large models trained from scratch using massive Earth Observation datasets, an alternative strategy that remains underexplored is the reuse and combination of existing pretrained models. In this study, we investigate whether foundation models pretrained on remote sensing and general vision datasets can be effectively combined to improve performance across a diverse set of key Earth Observation tasks. Using the GEO-Bench benchmark, we evaluate several prominent models, including Prithvi, Hiera, and DOFA, on eleven datasets covering a range of spatial resolutions, sensor modalities, and task types. The results show that feature-level ensembling of smaller pretrained models can match or exceed the performance of much larger models, while requiring less training time and computational resources. Moreover, the study highlights the potential of applying knowledge distillation to transfer the strengths of ensembles into more compact models, offering a practical path for deploying foundation models in real-world Earth Observation applications.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.20174 [cs.CV]
  (或者 arXiv:2506.20174v2 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.20174
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Chuc Man Duc [查看电子邮件]
[v1] 星期三, 2025 年 6 月 25 日 07:02:42 UTC (4,264 KB)
[v2] 星期四, 2025 年 6 月 26 日 03:23:43 UTC (4,264 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号