电气工程与系统科学 > 音频与语音处理
[提交于 2024年8月31日
]
标题: 基于渐进残差提取的预训练用于语音表示学习
标题: Progressive Residual Extraction based Pre-training for Speech Representation Learning
摘要: 自监督学习(SSL)在语音处理领域引起了广泛关注,在语音识别等语言任务上表现出色。然而,在各种下游任务上同时提升预训练模型的性能具有很大挑战性,因为每个下游任务都需要不同的语音信息。为此,我们提出了一种基于渐进残差提取的自监督学习方法,名为ProgRE。具体而言,我们在一种编码器风格的SSL主干网络中引入了两个轻量且专门的任务模块,以增强其从语音中提取音高变化和说话人信息的能力。此外,为了防止强化的音高变化和说话人信息对无关内容信息学习的干扰,我们从主分支中残差移除这两个模块提取的信息。然后,主分支通过HuBERT的语音掩蔽预测进行训练,以确保Transformer深层特征在内容任务上的性能。这样,我们可以从输入语音中逐步提取音高变化、说话人和内容表示。最后,我们可以使用不同层权重组合多种表示形式,以获得针对各种下游任务的任务特定表示。实验结果表明,与wav2vec2.0、HuBERT和WavLM等优秀的SSL方法相比,我们提出的方法在说话人识别、语音识别、情感识别、语音增强和语音转换等多种任务上实现了联合性能提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.