Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.21215

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2506.21215 (cs)
[提交于 2025年6月26日 ]

标题: 揭示大型语言模型中的因果推理:现实还是幻象?

标题: Unveiling Causal Reasoning in Large Language Models: Reality or Mirage?

Authors:Haoang Chi, He Li, Wenjing Yang, Feng Liu, Long Lan, Xiaoguang Ren, Tongliang Liu, Bo Han
摘要: 因果推理能力在推动大型语言模型(LLMs)向强人工智能发展方面至关重要。尽管多功能的LLMs似乎展示了理解上下文因果关系和提供符合因果定律的响应的能力,但尚不清楚它们是否能像人类一样进行真正的因果推理。然而,目前的证据表明情况恰恰相反。具体来说,LLMs只能进行浅层(第1级)因果推理,这主要归因于其参数中嵌入的因果知识,但它们缺乏真正的人类式(第2级)因果推理能力。为了支持这一假设,从方法论上,我们深入研究了基于变压器的LLMs的自回归机制,揭示出它本身并不具有因果性。实证上,我们引入了一个新的因果问答基准CausalProbe-2024,其语料库对所研究的LLMs来说是新鲜且几乎未见过的。与早期基准相比,LLMs在CausalProbe-2024上的表现显著下降,这表明它们主要进行的是第1级因果推理。为了弥合通往第2级因果推理的差距,我们受到一个事实的启发,即人类推理通常由通用知识和既定目标所促进。我们提出了G^2-Reasoner,一种将通用知识和目标导向提示整合到LLMs因果推理过程中的方法。实验表明,G^2-Reasoner显著增强了LLMs的因果推理能力,尤其是在新鲜和反事实情境中。这项工作为LLMs迈向真正的因果推理指明了一条新路径,超越第1级并朝着第2级迈进。
摘要: Causal reasoning capability is critical in advancing large language models (LLMs) toward strong artificial intelligence. While versatile LLMs appear to have demonstrated capabilities in understanding contextual causality and providing responses that obey the laws of causality, it remains unclear whether they perform genuine causal reasoning akin to humans. However, current evidence indicates the contrary. Specifically, LLMs are only capable of performing shallow (level-1) causal reasoning, primarily attributed to the causal knowledge embedded in their parameters, but they lack the capacity for genuine human-like (level-2) causal reasoning. To support this hypothesis, methodologically, we delve into the autoregression mechanism of transformer-based LLMs, revealing that it is not inherently causal. Empirically, we introduce a new causal Q&A benchmark called CausalProbe-2024, whose corpora are fresh and nearly unseen for the studied LLMs. The LLMs exhibit a significant performance drop on CausalProbe-2024 compared to earlier benchmarks, indicating the fact that they primarily engage in level-1 causal reasoning. To bridge the gap towards level-2 causal reasoning, we draw inspiration from the fact that human reasoning is usually facilitated by general knowledge and intended goals. We propose G^2-Reasoner, a method that incorporates general knowledge and goal-oriented prompts into LLMs' causal reasoning processes. Experiments demonstrate that G^2-Reasoner significantly enhances LLMs' causal reasoning capability, particularly in fresh and counterfactual contexts. This work sheds light on a new path for LLMs to advance towards genuine causal reasoning, going beyond level-1 and making strides towards level-2.
评论: 24页,被NeurIPS 2024接收
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL); 机器学习 (cs.LG)
引用方式: arXiv:2506.21215 [cs.AI]
  (或者 arXiv:2506.21215v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.21215
通过 DataCite 发表的 arXiv DOI
期刊参考: Advances in Neural Information Processing Systems, 2024, 37: 96640-96670

提交历史

来自: He Li [查看电子邮件]
[v1] 星期四, 2025 年 6 月 26 日 13:11:01 UTC (1,040 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号