计算机科学 > 人工智能
[提交于 2025年6月26日
]
标题: 从有限视角的空间心理建模
标题: Spatial Mental Modeling from Limited Views
摘要: 视觉语言模型(VLMs)能否像人类一样,仅从几个视角就想象出完整的场景? 人类会形成空间心理模型,即对未看到的空间的内部表示,以推理布局、视角和运动。 我们新的MindCube基准测试包含3,268张图像中的21,154个问题,揭示了这一关键差距,现有VLMs的表现接近随机。 使用MindCube,我们系统地评估VLMs通过表示位置(认知制图)、方向(视角代入)和动态(“假设”移动的心理模拟)来构建稳健空间心理模型的效果。 然后,我们探索了三种方法来帮助VLMs近似空间心理模型,包括未见过的中间视角、自然语言推理链和认知地图。 显著的提升来自于一种协同方法,“先制图后推理”,该方法联合训练模型首先生成一个认知地图,然后在其上进行推理。 通过训练模型在这些内部地图上进行推理,我们将准确率从37.8%提高到了60.8%(+23.0%)。 添加强化学习进一步提升了性能至70.7%(+32.9%)。 我们的关键见解是,这种空间心理模型的支撑,主动构建并利用带有灵活推理过程的内部结构化空间表示,显著提高了对不可观测空间的理解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.