电气工程与系统科学 > 音频与语音处理
[提交于 2022年12月1日
(v1)
,最后修订 2023年6月6日 (此版本, v2)]
标题: 基于带分裂RNN的高保真语音增强
标题: High Fidelity Speech Enhancement with Band-split RNN
摘要: 尽管语音增强(SE)研究取得了快速进展,但在强噪声和干扰说话人环境下提升所需语音质量仍然具有挑战性。 本文将最近提出的带分裂循环神经网络(BSRNN)模型扩展到全频段SE和个性化SE(PSE)任务。 为了减轻全频段语音中不稳定高频分量的影响,我们分别对低频子带和高频子带进行双向和单向的带级建模。 对于PSE任务,我们在BSRNN中引入说话人注册模块以利用目标说话人信息。 此外,我们利用MetricGAN判别器(MGD)和多分辨率光谱图判别器(MRSD)来改善感知质量指标。 实验结果显示,我们的系统优于多种顶级SE系统,在DNS-2020测试集上达到了最先进的(SOTA)结果,并在DNS-2023挑战赛中排名前三。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.