计算机科学 > 计算与语言
[提交于 2025年1月3日
(v1)
,最后修订 2025年4月9日 (此版本, v2)]
标题: 心智理论中情境理解的本质:基于故事角色的问题回答研究
标题: The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters
摘要: 理论-心智(ToM)是一种基本的心理能力,使人类能够理解和解释他人的心理状态。 人类通过整合来自广泛上下文信息的因果线索和间接线索来推断他人的想法,这些信息通常来自于过去的互动。 换句话说,人类的ToM在很大程度上依赖于对他人背景和生活故事的理解。 不幸的是,由于现有评估机器ToM能力的基准测试使用的是没有全局上下文的短篇叙事,尤其是角色的个人背景,因此这一方面被很大程度上忽视了。 在本文中,我们验证了在ToM中对个人背景进行全面上下文理解的重要性,并评估了大语言模型(LLMs)在这些复杂场景中的表现。 为了实现这一目标,我们引入了CharToM基准测试,该测试包含基于经典小说角色的1,035个ToM问题。 我们的研究表明,存在显著的性能差异:同一组受过教育的参与者在读过小说时的表现明显优于未读过小说时的表现。 同时,我们在最先进的LLMs(包括最近的o1和DeepSeek-R1模型)上的实验表明,尽管这些模型在预训练期间已经接触过这些故事,但它们的表现仍然明显逊色于人类。 这突显了当前LLMs在捕捉ToM推理所需细微上下文信息方面的局限性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.