计算机科学 > 计算与语言
[提交于 2025年8月30日
]
标题: 基于熵的粗粒度和压缩语义语音表示学习
标题: Entropy-based Coarse and Compressed Semantic Speech Representation Learning
摘要: 离散语音表示学习最近在声学和语义建模方面引起了越来越多的关注。 现有的方法通常将16 kHz的波形以每秒25或50个标记的速率编码为离散标记。 然而,考虑到语音通常每秒只传达2到5个词,这种细粒度的分词引入了冗余,并阻碍了下游训练和推理的效率。 此外,这种频率下的语义语音表示主要捕捉语音级别的信息,而语义理解可能不需要如此详细的标记级分辨率。 为了解决这些限制,我们提出了一种基于熵的动态聚合框架,用于学习压缩的语义语音表示。 首先,通过在大规模未标记数据上进行下一个标记预测来预训练一个语音语言模型,以捕捉常见的标记模式。 然后使用预测熵自适应地确定聚合边界,接着通过一个交叉注意力模块融合每个片段内的信息。 通过调整熵阈值,可以灵活控制表示的粒度和压缩比。 在自动语音识别、语音到文本翻译和语音转换任务上的实验表明,压缩表示的表现与密集标记序列相当或更好,证明了所提出方法的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.