计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月16日
(v1)
,最后修订 2025年7月20日 (此版本, v2)]
标题: YOLOv8-SMOT:一种通过切片辅助训练和自适应关联实现实时小目标跟踪的高效且鲁棒的框架
标题: YOLOv8-SMOT: An Efficient and Robust Framework for Real-Time Small Object Tracking via Slice-Assisted Training and Adaptive Association
摘要: 从无人机(UAV)视角跟踪小型、灵活的多目标(SMOT),例如鸟类,是一项极具挑战性的计算机视觉任务。困难主要来自三个方面:目标外观特征的极端稀缺性,由相机和目标自身组合动力学引起的复杂运动纠缠,以及由于密集群集行为引起的频繁遮挡和身份模糊。本文详细介绍了我们在MVA 2025“寻找鸟类”小型多目标跟踪挑战赛(SMOT4SB)中夺冠的解决方案,该方案采用了检测跟踪范式,并在检测和关联层面进行了有针对性的创新。在检测方面,我们提出了一种名为\textbf{切片训练}的系统训练增强框架。该框架通过“确定性全覆盖切片”和“切片级随机增强”的协同作用,有效解决了高分辨率图像训练中对小目标学习不足的问题。在跟踪方面,我们设计了一个完全独立于外观信息的鲁棒跟踪器。通过将\textbf{运动方向保持(EMA)}机制和结合\textbf{边界框扩展和距离惩罚}的\textbf{自适应相似性度量}集成到OC-SORT框架中,我们的跟踪器可以稳定处理不规则运动并保持目标身份。我们的方法在SMOT4SB公开测试集上达到了\textbf{55.205}的SO-HOTA分数,充分验证了我们的框架在解决复杂现实世界SMOT问题中的有效性和先进性。源代码将在https://github.com/Salvatore-Love/YOLOv8-SMOT 上提供。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.