统计学 > 机器学习
[提交于 2024年12月2日
]
标题: 语言模型中 Berezinskii-Kosterlitz-Thouless 相变的首次数值观测
标题: First numerical observation of the Berezinskii-Kosterlitz-Thouless transition in language models
摘要: 数十年来,自然语言中涉及不同统计性质的若干幂律临界特性——类似于物理系统在相变附近所表现出的标度性质——已被记录在案。 大型语言模型(LLMs)的近期兴起通过与物理学中的标度定律和涌现能力等概念的引人入胜的相似性,提供了进一步的证据和兴奋点。 然而,从统计物理学的角度理解的表现出相变的具体生成语言模型类别实例却尚未出现。 在这项工作中,受统计物理学中一维Potts模型的启发,我们构建了一个简单的概率语言模型,该模型属于上下文敏感语法(CSG)类,并在自然语言模型框架下数值展示了明确的相变现象。 我们明确表明,一个精确定义的序参量——该参量捕获了由语言模型生成的句子中的符号频率偏差——从严格为零变为严格非零值(在句子无限长度极限下),这表明在调整我们考虑的随机语言模型参数时出现的数学奇异性。 此外,我们将这种相变识别为Berezinskii-Kosterlitz-Thouless(BKT)相变的一种变体,这种相变已知不仅在相变点而且在整个相中表现出临界性质。 这一发现导致了一种可能性,即自然语言中的临界特性可能不需要仔细的精细调节或自组织临界性,而是可以通过语言结构与BKT相之间的潜在联系得到一般性的解释。
当前浏览上下文:
stat.ML
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.