计算机科学 > 计算与语言
[提交于 2025年9月1日
]
标题: 分析神经音频编码器的语言
标题: Analysing the Language of Neural Audio Codecs
摘要: 本研究对神经音频编解码器(NACs)的统计和语言属性进行了比较分析。 我们研究了各种NAC模型生成的离散语音标记,考察它们是否遵循如齐夫定律和海普斯定律等语言统计规律,以及它们的熵和冗余度。 为了评估这些标记级别的属性如何与合成语音中的语义和声学保留相关,我们使用自动语音识别的错误率来评估可理解性,并使用UTMOS分数来评估质量。 我们的结果表明,NAC标记,特别是3-gram,表现出类似语言的统计模式。 此外,这些属性以及信息内容的度量被发现与语音识别和重合成任务中性能的提升有关。 这些发现为NAC标记序列的结构提供了见解,并有助于设计更有效的生成语音模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.