计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月7日
]
标题: 时空大语言模型:关于环境和行动的推理
标题: Spatio-Temporal LLM: Reasoning about Environments and Actions
摘要: 尽管多模态大语言模型(MLLMs)最近取得了显著进展,但MLLMs在正确回答需要整体时空理解的提示时仍然存在困难。具体来说,解决同时涉及1)一个代理可以操作的环境整体,以及2)最近发生的、编码在视频片段中的动作的提示是具有挑战性的。然而,这种整体的时空理解对于在现实世界中运行的代理非常重要。为了解决这个问题,我们首先开发了一个框架来收集大规模数据集。使用收集到的“关于环境和动作的推理”(REA)数据集,我们表明近期的方法确实难以正确回答这些提示。为了改进,我们开发了一个“时空大语言模型”(ST-LLM),该模型配备了投影器,以提高对环境的空间理解和对最近观察结果的时间理解。在收集的REA数据上,我们展示了所提出的方法相比之前的工作显著提升了结果。代码和数据可在 https://zoezheng126.github.io/STLLM-website/ 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.