计算机科学 > 计算与语言
[提交于 2025年1月3日
(v1)
,最后修订 2025年2月28日 (此版本, v2)]
标题: 大型语言模型中涌现能力的非遍历性框架
标题: A non-ergodic framework for understanding emergent capabilities in Large Language Models
摘要: 大规模语言模型具有在规模扩大时意外出现的能力,但我们需要一个理论框架来解释它们为何以及如何出现。 我们证明语言模型实际上是非遍历系统,并提供了一个基于斯图尔特·卡夫曼的相邻可能理论(TAP)的数学框架来解释能力的出现。 我们的资源受限的TAP方程展示了架构、训练和上下文约束如何通过语义空间中的相变来塑造模型能力。 我们通过三种不同的语言模型实验证明,能力是通过约束相互作用和路径依赖性探索引导的离散转换出现的。 这个框架为理解语言模型中的涌现提供了理论基础,并指导了能够引导能力涌现的架构的发展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.