计算机科学 > 声音
[提交于 2025年7月17日
]
标题: 特定任务的音频编码:机器学习的潜在特征是该机器的代码
标题: Task-Specific Audio Coding for Machines: Machine-Learned Latent Features Are Codes for That Machine
摘要: 神经音频编解码器,利用量化算法,在各种语音/音频任务中产生了重大影响。 虽然高保真重建对于人类感知至关重要,但面向机器的音频编码(ACoM)优先考虑高效的压缩和下游任务性能,而不考虑感知细节。 本工作介绍了一种高效的ACoM方法,可以压缩和量化已训练的语音/音频下游模型的任何选定中间特征表示。 我们的方法结合了任务特定的损失指导和残差矢量量化(RVQ)损失,以极低的比特率(即低于200 bps)提供对下游模型性能的最小损失。 生成的分词器可适应各种比特率和模型大小,便于灵活部署。 在自动语音识别和音频分类上进行评估,我们的方法通过适当的正则化展示了其有效性和在更广泛任务和架构应用中的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.