计算机科学 > 人工智能
[提交于 2024年6月7日
]
标题: 零、有限和无限信念历史的心智理论推理在大型语言模型中
标题: Zero, Finite, and Infinite Belief History of Theory of Mind Reasoning in Large Language Models
摘要: 大型语言模型(LLMs)最近显示出心智理论(ToM)能力的潜力和出现,并且在某些ToM任务中甚至超过了人类。为了评估和扩展LLMs的ToM推理能力的边界,我们提出了一种新的概念、分类和框架,即基于零、有限和无限信念历史的ToM推理,并开发了一个多轮文本游戏,称为$\textit{Pick the Right Stuff}$,作为基准测试。我们用这个游戏评估了六个LLMs,并发现它们在零信念历史上的表现始终优于有限信念历史。此外,我们发现其中两个参数规模较小的模型超越了所有参数规模较大的评估模型。我们期望这项工作能为未来的ToM基准开发铺平道路,同时也促进需要具备更复杂ToM推理能力的更复杂的AI代理或系统的推广和发展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.