Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.12087

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2507.12087 (cs)
[提交于 2025年7月16日 (v1) ,最后修订 2025年7月20日 (此版本, v2)]

标题: YOLOv8-SMOT:一种通过切片辅助训练和自适应关联实现实时小目标跟踪的高效且鲁棒的框架

标题: YOLOv8-SMOT: An Efficient and Robust Framework for Real-Time Small Object Tracking via Slice-Assisted Training and Adaptive Association

Authors:Xiang Yu, Xinyao Liu, Guang Liang
摘要: 从无人机(UAV)视角跟踪小型、灵活的多目标(SMOT),例如鸟类,是一项极具挑战性的计算机视觉任务。困难主要来自三个方面:目标外观特征的极端稀缺性,由相机和目标自身组合动力学引起的复杂运动纠缠,以及由于密集群集行为引起的频繁遮挡和身份模糊。本文详细介绍了我们在MVA 2025“寻找鸟类”小型多目标跟踪挑战赛(SMOT4SB)中夺冠的解决方案,该方案采用了检测跟踪范式,并在检测和关联层面进行了有针对性的创新。在检测方面,我们提出了一种名为\textbf{切片训练}的系统训练增强框架。该框架通过“确定性全覆盖切片”和“切片级随机增强”的协同作用,有效解决了高分辨率图像训练中对小目标学习不足的问题。在跟踪方面,我们设计了一个完全独立于外观信息的鲁棒跟踪器。通过将\textbf{运动方向保持(EMA)}机制和结合\textbf{边界框扩展和距离惩罚}的\textbf{自适应相似性度量}集成到OC-SORT框架中,我们的跟踪器可以稳定处理不规则运动并保持目标身份。我们的方法在SMOT4SB公开测试集上达到了\textbf{55.205}的SO-HOTA分数,充分验证了我们的框架在解决复杂现实世界SMOT问题中的有效性和先进性。源代码将在https://github.com/Salvatore-Love/YOLOv8-SMOT 上提供。
摘要: Tracking small, agile multi-objects (SMOT), such as birds, from an Unmanned Aerial Vehicle (UAV) perspective is a highly challenging computer vision task. The difficulty stems from three main sources: the extreme scarcity of target appearance features, the complex motion entanglement caused by the combined dynamics of the camera and the targets themselves, and the frequent occlusions and identity ambiguity arising from dense flocking behavior. This paper details our championship-winning solution in the MVA 2025 "Finding Birds" Small Multi-Object Tracking Challenge (SMOT4SB), which adopts the tracking-by-detection paradigm with targeted innovations at both the detection and association levels. On the detection side, we propose a systematic training enhancement framework named \textbf{SliceTrain}. This framework, through the synergy of 'deterministic full-coverage slicing' and 'slice-level stochastic augmentation, effectively addresses the problem of insufficient learning for small objects in high-resolution image training. On the tracking side, we designed a robust tracker that is completely independent of appearance information. By integrating a \textbf{motion direction maintenance (EMA)} mechanism and an \textbf{adaptive similarity metric} combining \textbf{bounding box expansion and distance penalty} into the OC-SORT framework, our tracker can stably handle irregular motion and maintain target identities. Our method achieves state-of-the-art performance on the SMOT4SB public test set, reaching an SO-HOTA score of \textbf{55.205}, which fully validates the effectiveness and advancement of our framework in solving complex real-world SMOT problems. The source code will be made available at https://github.com/Salvatore-Love/YOLOv8-SMOT.
主题: 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2507.12087 [cs.CV]
  (或者 arXiv:2507.12087v2 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.12087
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Guang Liang [查看电子邮件]
[v1] 星期三, 2025 年 7 月 16 日 09:51:19 UTC (362 KB)
[v2] 星期日, 2025 年 7 月 20 日 15:16:24 UTC (362 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号