计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月23日
]
标题: VisionTrap:视觉数据上的无法回答的问题
标题: VisionTrap: Unanswerable Questions On Visual Data
摘要: 视觉问答(VQA)已成为一个广泛研究的主题,大量研究集中在如何让视觉语言模型根据现实世界的图像回答可回答的问题。 然而,对于这些模型如何处理无法回答的问题,特别是当它们应该避免提供回答时,研究仍然有限。 本研究调查了在不切实际生成的图像或提出无法回答的问题情况下,VQA的表现,评估模型是否能认识到自身知识的局限性,或者试图生成错误的答案。 我们引入了一个数据集,VisionTrap,包含三种类型的无法回答的问题,涵盖多种图像类型:(1)融合物体和动物的混合实体,(2)以非常规或不可能场景描绘的物体,(3)虚构或不存在的图形。 提出的问题在逻辑上结构清晰,但本质上无法回答,测试模型是否能正确识别自身的局限性。 我们的研究结果强调了将此类问题纳入VQA基准的重要性,以评估模型在应避免回答时是否倾向于回答。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.