计算机科学 > 计算与语言
[提交于 2025年5月26日
(v1)
,最后修订 2025年7月18日 (此版本, v4)]
标题: 关于人类语言编码最优性的类别及齐普夫定律的起源
标题: On the class of coding optimality of human languages and the origins of Zipf's law
摘要: 这里我们提出了一种编码系统的新型最优性。该类的成员相对于最优编码线性偏移,因此表现出齐普夫定律,即频率排名的幂律分布。在该类中,齐普夫定律、规模-排名定律和规模-概率定律形成类似群的结构。我们识别出属于该类的人类语言。所有与齐普夫定律有足够一致性的语言都是该类的潜在成员。相反,其他物种的通信系统可能无法成为该类的成员,因为它们表现出指数分布,但海豚和座头鲸可能例外。我们提供了对双对数尺度下频率与排名图的新见解。对于任何系统,该尺度下的直线表明在非奇异编码和唯一可解编码下的最优码长度由一个斜率为齐普夫定律指数的线性函数偏移。对于在压缩下且被约束为唯一可解的系统,这样的直线可能表明该系统接近最优编码。我们提供了支持齐普夫定律起源于压缩的假设,并为压缩系统中齐普夫定律的出现定义了可测试条件。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.