计算机科学 > 软件工程
[提交于 2025年7月22日
]
标题: 评估视觉语言动作启用机器人的不确定性与质量
标题: Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots
摘要: 视觉语言动作(VLA)模型是人工智能(AI)系统的一个多模态类别,它结合了视觉感知、自然语言理解和动作规划,使代理能够解释其环境、理解指令并自主执行具身任务。最近,该领域取得了显著进展。这些模型通常通过任务成功率进行评估,这无法捕捉任务执行的质量以及模型对其决策的置信度。在本文中,我们提出了八个针对机器人操作任务的VLA模型专门设计的不确定性指标和五个质量指标。我们通过一项涉及三个最先进的VLA模型在四个代表性机器人操作任务中成功执行的908次任务的大规模实证研究来评估它们的有效性。人类领域专家手动标记了任务质量,使我们能够分析所提出的指标与专家判断之间的相关性。结果表明,一些指标与人类评估显示出中等至强相关性,突显了它们在评估任务质量和模型置信度方面的实用性。此外,我们发现某些指标可以区分失败任务中的高质量、中质量和低质量执行,这在测试预言不存在时可能很有意思。我们的研究结果挑战了目前仅依赖二进制成功比率的评估实践,并为改进VLA支持的机器人系统的实时监控和自适应增强铺平了道路。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.