计算机科学 > 计算工程、金融与科学
[提交于 2025年7月23日
]
标题: RoadBench:一种用于道路损伤理解的视觉-语言基础模型和基准
标题: RoadBench: A Vision-Language Foundation Model and Benchmark for Road Damage Understanding
摘要: 准确的道路损坏检测对于及时的基础设施维护和公共安全至关重要,但现有的仅视觉数据集和模型缺乏文本信息可以提供的丰富上下文理解。 为解决这一限制,我们引入了RoadBench,这是首个用于全面道路损坏理解的多模态基准。 该数据集将高分辨率的道路损坏图像与详细的文本描述配对,为模型训练提供了更丰富的上下文。 我们还提出了RoadCLIP,一种新颖的视觉语言模型,它在CLIP的基础上集成了领域特定的增强功能。 它包括一种疾病感知的位置编码,可以捕捉道路缺陷的空间模式,并包含一种注入道路状况先验机制,以改进模型对道路损坏的理解。 我们进一步采用GPT驱动的数据生成管道来扩展RoadBench中的图像到文本对,大大增加了数据多样性,而无需进行详尽的手动标注。 实验表明,RoadCLIP在道路损坏识别任务中达到了最先进的性能,比现有仅视觉模型显著提升了19.2%。 这些结果突显了整合视觉和文本信息在增强道路状况分析方面的优势,为该领域设定了新的基准,并通过多模态学习为更有效的基础设施监测铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.