计算机科学 > 人工智能
[提交于 2025年6月26日
]
标题: 揭示大型语言模型中的因果推理:现实还是幻象?
标题: Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?
摘要: 因果推理能力在推动大型语言模型(LLMs)向强人工智能发展方面至关重要。尽管多功能的LLMs似乎展示了理解上下文因果关系和提供符合因果定律的响应的能力,但尚不清楚它们是否能像人类一样进行真正的因果推理。然而,目前的证据表明情况恰恰相反。具体来说,LLMs只能进行浅层(第1级)因果推理,这主要归因于其参数中嵌入的因果知识,但它们缺乏真正的人类式(第2级)因果推理能力。为了支持这一假设,从方法论上,我们深入研究了基于变压器的LLMs的自回归机制,揭示出它本身并不具有因果性。实证上,我们引入了一个新的因果问答基准CausalProbe-2024,其语料库对所研究的LLMs来说是新鲜且几乎未见过的。与早期基准相比,LLMs在CausalProbe-2024上的表现显著下降,这表明它们主要进行的是第1级因果推理。为了弥合通往第2级因果推理的差距,我们受到一个事实的启发,即人类推理通常由通用知识和既定目标所促进。我们提出了G^2-Reasoner,一种将通用知识和目标导向提示整合到LLMs因果推理过程中的方法。实验表明,G^2-Reasoner显著增强了LLMs的因果推理能力,尤其是在新鲜和反事实情境中。这项工作为LLMs迈向真正的因果推理指明了一条新路径,超越第1级并朝着第2级迈进。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.