计算机科学 > 声音
[提交于 2025年9月4日
]
标题: SwinSRGAN:基于Swin变换器的生成对抗网络用于高保真语音超分辨率
标题: SwinSRGAN: Swin Transformer-based Generative Adversarial Network for High-Fidelity Speech Super-Resolution
摘要: 语音超分辨率(SR)从低分辨率语音信号中重建高频内容。 现有系统在两阶段梅尔声码器管道中常常存在表示不匹配,并且由仅使用CNN的生成器过度平滑幻觉的高频内容。 扩散和流模型计算成本高,其在不同领域和采样率下的鲁棒性仍然有限。 我们提出了SwinSRGAN,一个在修改离散余弦变换(MDCT)幅度上运行的端到端框架。 它是一个基于Swin Transformer的U-Net,通过结合时域MPD/MSD判别器与专门针对高频带的多频带MDCT判别器的混合对抗方案来捕捉长距离的谱时依赖关系。 我们对arcsinh压缩的MDCT应用了稀疏感知正则化器,以更好地保留瞬态成分。 该系统在一个步骤中将不同采样率的输入上采样到48 kHz,并实时运行。 在标准基准测试中,SwinSRGAN降低了客观误差并提高了ABX偏好分数。 在HiFi-TTS上无需微调的零样本测试中,它优于NVSR和mdctGAN,展示了在数据集上的强大泛化能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.