Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.02534

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2506.02534 (cs)
[提交于 2025年6月3日 ]

标题: 利用不完美标签的弱监督增强单目高度估计

标题: Enhancing Monocular Height Estimation via Weak Supervision from Imperfect Labels

Authors:Sining Chen, Yilei Shi, Xiao Xiang Zhu
摘要: 单目高度估测被认为是遥感领域中最高效且最具成本效益的三维感知手段,并且自深度学习出现以来就吸引了大量关注。尽管训练神经网络需要大量的数据,但完美的标签数据却非常稀缺,且仅限于发达地区可用。因此,训练出的模型缺乏泛化能力,这限制了现有方法大规模应用的潜力。我们首次通过引入带有不完美标签的数据来训练逐像素高度估测网络(包括与高质量标签相比存在不完整、不精确和不准确的标签)来解决这一问题。我们提出了一种基于集成的流水线,该流水线可兼容任何单目高度估测网络。考虑到噪声标签、领域迁移以及高度值长尾分布的挑战,我们精心设计了架构和损失函数,利用平衡软损失和序数约束的弱监督方式从不完美标签中挖掘隐藏信息。我们在两个具有不同分辨率的数据集DFC23(0.5到1米)和GBH(3米)上进行了广泛的实验。结果显示,所提出的流水线相较于基线模型在各种域上的性能更加均衡,分别使DFC23和GBH的平均均方根误差改善了22.94%和18.62%。通过消融研究验证了每个设计组件的有效性。代码可在https://github.com/zhu-xlab/weakim2h获取。
摘要: Monocular height estimation is considered the most efficient and cost-effective means of 3D perception in remote sensing, and it has attracted much attention since the emergence of deep learning. While training neural networks requires a large amount of data, data with perfect labels are scarce and only available within developed regions. The trained models therefore lack generalizability, which limits the potential for large-scale application of existing methods. We tackle this problem for the first time, by introducing data with imperfect labels into training pixel-wise height estimation networks, including labels that are incomplete, inexact, and inaccurate compared to high-quality labels. We propose an ensemble-based pipeline compatible with any monocular height estimation network. Taking the challenges of noisy labels, domain shift, and long-tailed distribution of height values into consideration, we carefully design the architecture and loss functions to leverage the information concealed in imperfect labels using weak supervision through balanced soft losses and ordinal constraints. We conduct extensive experiments on two datasets with different resolutions, DFC23 (0.5 to 1 m) and GBH (3 m). The results indicate that the proposed pipeline outperforms baselines by achieving more balanced performance across various domains, leading to improvements of average root mean square errors up to 22.94 %, and 18.62 % on DFC23 and GBH, respectively. The efficacy of each design component is validated through ablation studies. Code is available at https://github.com/zhu-xlab/weakim2h.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.02534 [cs.CV]
  (或者 arXiv:2506.02534v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.02534
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sining Chen [查看电子邮件]
[v1] 星期二, 2025 年 6 月 3 日 07:14:16 UTC (2,598 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号