计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月3日
]
标题: MVTD:一个用于海上视觉目标跟踪的基准数据集
标题: MVTD: A Benchmark Dataset for Maritime Visual Object Tracking
摘要: 视觉目标跟踪(VOT)是一项基础任务,在自主导航、监控和海洋机器人等领域有着广泛的应用。 尽管通用目标跟踪取得了显著进展,但海洋环境仍然带来了独特的挑战,包括镜面水反射、低对比度目标、动态变化的背景以及频繁的遮挡。 这些复杂性显著降低了最先进的跟踪算法的性能,凸显了领域特定数据集的需求。 为了解决这一差距,我们引入了海洋视觉跟踪数据集(MVTD),这是一个专门设计用于海洋VOT的综合且公开可用的基准。 MVTD 包含 182 个高分辨率视频序列,总计约 150,000 帧,并包括四个代表性目标类别:船、船、帆船和无人水面舰艇(USV)。 该数据集捕捉了各种操作条件和海洋场景,反映了海洋环境中真实世界的复杂性。 我们在 MVTD 基准上评估了 14 种最近的 SOTA 跟踪算法,并观察到与通用数据集相比性能大幅下降。 然而,当在 MVTD 上微调时,这些模型表现出显著的性能提升,强调了领域适应和迁移学习在专用跟踪上下文中的有效性。 MVTD 数据集通过为海洋场景提供现实且具有挑战性的基准,在视觉跟踪社区中填补了一个关键空白。 数据集和源代码可以在这里访问: "https://github.com/AhsanBaidar/MVTD"。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.