计算机科学 > 计算与语言
[提交于 2024年12月31日
]
标题: Whisper 变得更强大:增强 Wav2Vec 2.0 以在低资源语言中实现更优的自动语音识别
标题: Whisper Turns Stronger: Augmenting Wav2Vec 2.0 for Superior ASR in Low-Resource Languages
摘要: 在低资源语言中处理语音到文本和自动语音识别问题历来具有挑战性,这是由于验证数据集的稀缺性和方言的多样性。阿拉伯语、俄语和葡萄牙语就是这些困难的典型例子,由于这些语言在全球不同大陆的众多方言,它们属于低资源语言。此外,这些语言的口音和发音的多样性使ASR模型的成功变得更加复杂。随着深度学习和Transformer的日益流行,声学模型如著名的Wav2Vec2在语音识别领域相比最先进的方法取得了优越的性能。然而,尽管Wav2Vec2在传统方法上效率有所提高,但对于代表性不足的语言,其性能显著下降,尽管它需要的标记数据显著减少。本文介绍了一个端到端框架,通过数据增强技术来增强在Wav2Vec2上微调的ASR系统。为了验证我们框架的有效性,我们使用了Mozilla的Common Voice项目中的三个数据集(阿拉伯语、俄语和葡萄牙语)进行了详细的实验评估。此外,本文提出的框架对不同的变音符号表现出鲁棒性。最终,我们的方法优于两个之前的基线模型,即预训练的Wav2Vec2和著名的Whisper ASR模型,在词错误率方面平均相对提高了33.9%,在字符错误率方面相对提高了53.2%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.