电气工程与系统科学 > 音频与语音处理
[提交于 2025年9月1日
]
标题: 带有三阶段训练的噪声去纠缠方法用于噪声鲁棒的语音识别
标题: Noisy Disentanglement with Tri-stage Training for Noise-Robust Speech Recognition
摘要: 为了在嘈杂或低信噪比(SNR)条件下提升端到端(E2E)语音识别系统的性能,本文引入了NoisyD-CT,这是一种基于Conformer-Transducer架构的新三阶段训练框架。 NoisyD-CT的核心是一个特别设计的紧凑噪声解耦(NoisyD)模块(仅增加1.71M参数),集成在Conformer块和Transducer解码器之间,以实现深度噪声抑制并提高在挑战性声学噪声环境中的自动语音识别(ASR)鲁棒性。 为了充分利用NoisyD-CT的噪声抑制能力,我们进一步提出了一种干净表示一致性损失,以对齐从嘈杂语音中提取的高层表示与从对应干净语音中获得的表示。 结合噪声重建损失,这种一致性对齐使NoisyD模块能够在抑制噪声的同时保留干净和嘈杂条件下一致的关键声学和语言特征,从而生成更干净的内部表示,提升ASR性能。 此外,我们的三阶段训练策略旨在在整个模型训练过程中充分利用噪声解耦和语音识别模块的功能,最终在嘈杂条件下最大化性能提升。 我们的实验是在LibriSpeech和CHiME-4数据集上进行的,广泛的实验结果表明,我们提出的NoisyD-CT显著优于竞争性的Conformer-Transducer基线,在模拟和真实世界嘈杂测试集上分别实现了25.7%和10.6%的相对词错误率降低,同时在干净语音测试集上保持或甚至提高了性能。 源代码、模型检查点和数据模拟脚本将发布在https://github.com/litchimo/NoisyD-CT。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.