计算机科学 > 计算机视觉与模式识别
[提交于 2025年5月30日
]
标题: ZeShot-VQA:基于答案映射的零样本视觉问答框架用于自然灾害损毁评估
标题: ZeShot-VQA: Zero-Shot Visual Question Answering Framework with Answer Mapping for Natural Disaster Damage Assessment
摘要: 自然灾害通常影响广大地区并摧毁基础设施。及时有效地响应至关重要,以最大程度地减少对受灾社区的影响,而数据驱动的方法是最好的选择。视觉问答(VQA)模型帮助管理团队深入了解损害情况。然而,最近发布的模型不具备回答开放性问题的能力,只能从预定义的答案列表中选择最佳答案。如果我们想提出带有新可能答案的问题,这些答案不在预定义的列表中,则需要在新的收集和标注的数据集上对该模型进行微调/重新训练,这是一个耗时的过程。近年来,大规模视觉-语言模型(VLMs)引起了广泛关注。这些模型在大规模数据集上进行训练,并在单模态和多模态视觉/语言下游任务上表现出色,通常无需微调。本文提出了一种基于VLM的零样本VQA(ZeShot-VQA)方法,并研究了其在灾后FloodNet数据集上的性能。由于所提出的方法利用了零样本学习,因此可以在无需微调的情况下应用于新数据集。此外,ZeShot-VQA能够处理和生成在训练过程中未见过的答案,这展示了其灵活性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.