Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.20015

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2505.20015 (cs)
[提交于 2025年5月26日 (v1) ,最后修订 2025年7月18日 (此版本, v4)]

标题: 关于人类语言编码最优性的类别及齐普夫定律的起源

标题: On the class of coding optimality of human languages and the origins of Zipf's law

Authors:Ramon Ferrer-i-Cancho
摘要: 这里我们提出了一种编码系统的新型最优性。该类的成员相对于最优编码线性偏移,因此表现出齐普夫定律,即频率排名的幂律分布。在该类中,齐普夫定律、规模-排名定律和规模-概率定律形成类似群的结构。我们识别出属于该类的人类语言。所有与齐普夫定律有足够一致性的语言都是该类的潜在成员。相反,其他物种的通信系统可能无法成为该类的成员,因为它们表现出指数分布,但海豚和座头鲸可能例外。我们提供了对双对数尺度下频率与排名图的新见解。对于任何系统,该尺度下的直线表明在非奇异编码和唯一可解编码下的最优码长度由一个斜率为齐普夫定律指数的线性函数偏移。对于在压缩下且被约束为唯一可解的系统,这样的直线可能表明该系统接近最优编码。我们提供了支持齐普夫定律起源于压缩的假设,并为压缩系统中齐普夫定律的出现定义了可测试条件。
摘要: Here we present a new class of optimality for coding systems. Members of that class are displaced linearly from optimal coding and thus exhibit Zipf's law, namely a power-law distribution of frequency ranks. Within that class, Zipf's law, the size-rank law and the size-probability law form a group-like structure. We identify human languages that are members of the class. All languages showing sufficient agreement with Zipf's law are potential members of the class. In contrast, there are communication systems in other species that cannot be members of that class for exhibiting an exponential distribution instead but dolphins and humpback whales might. We provide a new insight into plots of frequency versus rank in double logarithmic scale. For any system, a straight line in that scale indicates that the lengths of optimal codes under non-singular coding and under uniquely decodable encoding are displaced by a linear function whose slope is the exponent of Zipf's law. For systems under compression and constrained to be uniquely decodable, such a straight line may indicate that the system is coding close to optimality. We provide support for the hypothesis that Zipf's law originates from compression and define testable conditions for the emergence of Zipf's law in compressing systems.
评论: 拼写错误已更正;讨论内容已增强
主题: 计算与语言 (cs.CL) ; 物理与社会 (physics.soc-ph)
引用方式: arXiv:2505.20015 [cs.CL]
  (或者 arXiv:2505.20015v4 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.20015
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ramon Ferrer-i-Cancho [查看电子邮件]
[v1] 星期一, 2025 年 5 月 26 日 14:05:45 UTC (22 KB)
[v2] 星期二, 2025 年 6 月 3 日 17:00:20 UTC (23 KB)
[v3] 星期三, 2025 年 6 月 4 日 11:35:43 UTC (23 KB)
[v4] 星期五, 2025 年 7 月 18 日 14:57:19 UTC (24 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
physics
physics.soc-ph

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号