计算机科学 > 人工智能
[提交于 2025年7月7日
]
标题: 用于增强现实中的多模态训练助手的细粒度视觉-语言建模
标题: Fine-Grained Vision-Language Modeling for Multimodal Training Assistants in Augmented Reality
摘要: 视觉-语言模型(VLMs)对于使人工智能驱动的智能助手在多模态环境中进行解释和推理至关重要。 然而,它们在增强现实(AR)培训中的应用仍基本未被探索。 在本工作中,我们引入了一个针对AR培训的全面数据集,包含系统化的视觉-语言任务,并在该数据集上评估了九种最先进的VLMs。 我们的结果表明,即使是先进的模型,包括GPT-4o,在细粒度组装任务中也表现出困难,在状态检测上的最大F1分数仅为40.54%。 这些发现突显了对增强的数据集、基准测试和进一步研究的需求,以提高细粒度的视觉-语言对齐能力。 除了技术贡献外,我们的工作还具有更广泛的社会影响,特别是在为盲人和视力受损用户提供平等的人工智能驱动学习机会方面。 我们提供了所有相关资源,包括数据集、源代码和评估结果,以支持研究社区。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.