计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月1日
(v1)
,最后修订 2025年7月8日 (此版本, v2)]
标题: 高频语义和几何先验用于挑战性无人机图像中的端到端检测变压器
标题: High-Frequency Semantics and Geometric Priors for End-to-End Detection Transformers in Challenging UAV Imagery
摘要: 基于无人机的物体检测(UAV-OD)面临诸多挑战,包括无人机图像中目标尺寸小、密集分布以及杂乱背景。 当前算法通常依赖于手工设计的组件,如锚框,这需要精细调整且泛化能力有限,以及非极大值抑制(NMS),这对阈值敏感且容易对密集目标进行错误分类。 因此,这些通用架构难以适应航空成像特性,导致性能受限。 此外,新兴的端到端框架尚未有效缓解这些航空特定的挑战。为解决这些问题,我们提出了HEGS-DETR,这是一个全面增强的实时检测变压器框架,专为无人机设计。 首先,我们引入了高频增强语义网络(HFESNet)作为新的主干网络。 HFESNet保留关键的高频空间细节以提取鲁棒的语义特征,从而提高在复杂背景中对小目标和遮挡目标的区分能力。 其次,我们的高效小目标金字塔(ESOP)策略以最小的计算开销战略地融合高分辨率特征图,显著提升小目标检测效果。 最后,提出的可选查询回收(SQR)和几何感知位置编码(GAPE)模块增强了检测器解码器的稳定性和定位精度,有效优化边界框,并为密集场景提供明确的空间先验。 在VisDrone数据集上的实验表明,HEGS-DETR在基线基础上实现了5.1%的AP50和3.8%的AP提升,同时保持实时速度并将参数数量减少了4M。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.