Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.00825v2

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.00825v2 (cs)
[提交于 2025年7月1日 (v1) ,最后修订 2025年7月8日 (此版本, v2)]

标题: 高频语义和几何先验用于挑战性无人机图像中的端到端检测变压器

标题: High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery

Authors:Hongxing Peng, Lide Chen, Hui Zhu, Yan Chen
摘要: 基于无人机的物体检测(UAV-OD)面临诸多挑战,包括无人机图像中目标尺寸小、密集分布以及杂乱背景。 当前算法通常依赖于手工设计的组件,如锚框,这需要精细调整且泛化能力有限,以及非极大值抑制(NMS),这对阈值敏感且容易对密集目标进行错误分类。 因此,这些通用架构难以适应航空成像特性,导致性能受限。 此外,新兴的端到端框架尚未有效缓解这些航空特定的挑战。为解决这些问题,我们提出了HEGS-DETR,这是一个全面增强的实时检测变压器框架,专为无人机设计。 首先,我们引入了高频增强语义网络(HFESNet)作为新的主干网络。 HFESNet保留关键的高频空间细节以提取鲁棒的语义特征,从而提高在复杂背景中对小目标和遮挡目标的区分能力。 其次,我们的高效小目标金字塔(ESOP)策略以最小的计算开销战略地融合高分辨率特征图,显著提升小目标检测效果。 最后,提出的可选查询回收(SQR)和几何感知位置编码(GAPE)模块增强了检测器解码器的稳定性和定位精度,有效优化边界框,并为密集场景提供明确的空间先验。 在VisDrone数据集上的实验表明,HEGS-DETR在基线基础上实现了5.1%的AP50和3.8%的AP提升,同时保持实时速度并将参数数量减少了4M。
摘要: Unmanned Aerial Vehicle-based Object Detection (UAV-OD) faces substantial challenges, including small target sizes, high-density distributions, and cluttered backgrounds in UAV imagery. Current algorithms often depend on hand-crafted components like anchor boxes, which demand fine-tuning and exhibit limited generalization, and Non-Maximum Suppression (NMS), which is threshold-sensitive and prone to misclassifying dense objects. These generic architectures thus struggle to adapt to aerial imaging characteristics, resulting in performance limitations. Moreover, emerging end-to-end frameworks have yet to effectively mitigate these aerial-specific challenges.To address these issues, we propose HEGS-DETR, a comprehensively enhanced, real-time Detection Transformer framework tailored for UAVs. First, we introduce the High-Frequency Enhanced Semantics Network (HFESNet) as a novel backbone. HFESNet preserves critical high-frequency spatial details to extract robust semantic features, thereby improving discriminative capability for small and occluded targets in complex backgrounds. Second, our Efficient Small Object Pyramid (ESOP) strategy strategically fuses high-resolution feature maps with minimal computational overhead, significantly boosting small object detection. Finally, the proposed Selective Query Recollection (SQR) and Geometry-Aware Positional Encoding (GAPE) modules enhance the detector's decoder stability and localization accuracy, effectively optimizing bounding boxes and providing explicit spatial priors for dense scenes. Experiments on the VisDrone dataset demonstrate that HEGS-DETR achieves a 5.1% AP50 and 3.8% AP increase over the baseline, while maintaining real-time speed and reducing parameter count by 4M.
评论: 14页,9图,即将发表于KBS
主题: 计算机视觉与模式识别 (cs.CV)
ACM 类: I.2.10; I.4.8; I.5.1
引用方式: arXiv:2507.00825 [cs.CV]
  (或者 arXiv:2507.00825v2 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.00825
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Lide Chen [查看电子邮件]
[v1] 星期二, 2025 年 7 月 1 日 14:56:56 UTC (13,425 KB)
[v2] 星期二, 2025 年 7 月 8 日 01:32:53 UTC (13,376 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号