计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月17日
]
标题: 基于Transformer的空间定位:全面综述
标题: Transformer-based Spatial Grounding: A Comprehensive Survey
摘要: 空间定位,即将自然语言表达与相应的图像区域相关联的过程,由于基于变压器的模型的引入而迅速发展,显著增强了多模态表示和跨模态对齐。 尽管取得了这一进展,该领域仍缺乏对当前方法、数据集使用、评估指标和工业适用性的全面综合。 本文对2018年至2025年的基于变压器的空间定位方法进行了系统的文献综述。 我们的分析确定了主导的模型架构、普遍使用的数据集和广泛采用的评估指标,同时突出了关键的方法趋势和最佳实践。 本研究为研究人员和从业者提供了重要的见解和结构化指导,有助于开发强大、可靠且适用于工业的基于变压器的空间定位模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.