计算机科学 > 计算与语言
标题: 关于人类语言编码最优性类及其与zipf定律的起源
标题: On the class of coding optimality of human languages and the origins of Zipf's law
摘要: 我们在此提出了一类新的编码系统的最优性。该类别的成员线性偏离了最优编码,因此表现出齐夫定律,即频率等级的幂律分布。在该类别内,齐夫定律、规模-排名定律和规模-概率定律形成了一种类似群组的结构。我们识别出属于该类别的自然语言。所有与齐夫定律足够一致的语言都可能是该类别的潜在成员。相比之下,其他物种中的通信系统由于表现出指数分布而非幂律分布,因而不可能成为该类别的一员,但海豚和座头鲸可能是个例外。我们对频率与排名在双对数尺度下的图表提供了新的见解。对于任何系统,在该尺度上呈现一条直线表明非奇异编码和唯一可解编码下最优码长的差异由一个线性函数表示,其斜率即为齐夫定律的指数。对于受压缩且受限于唯一可解编码的系统,这样的直线可能表明该系统接近最优编码。我们的研究结果为齐夫定律源于压缩的假设提供了支持。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.