计算机科学 > 声音
[提交于 2025年8月28日
]
标题: WaveLLDM:一种轻量级潜在扩散模型的设计与开发用于语音增强与恢复
标题: WaveLLDM: Design and Development of a Lightweight Latent Diffusion Model for Speech Enhancement and Restoration
摘要: 高质量音频在在线通信、虚拟助手和多媒体行业等广泛的应用中至关重要。 然而,由噪声、压缩和传输伪影引起的退化仍然是一个主要挑战。 虽然扩散模型在音频修复方面已被证明是有效的,但它们通常需要大量的计算资源,并且难以处理更长的缺失段。 本研究介绍了WaveLLDM(Wave Lightweight Latent Diffusion Model),这是一种将高效的神经音频编解码器与潜在扩散相结合的架构,用于音频修复和去噪。 与在时间域或频谱域操作的传统方法不同,WaveLLDM在压缩的潜在空间中处理音频,从而降低计算复杂度,同时保持重建质量。 在Voicebank+DEMAND测试集上的实证评估表明,WaveLLDM实现了准确的频谱重建,具有较低的对数频谱距离(LSD)分数(0.48至0.60),并且对未见过的数据具有良好的适应性。 然而,与最先进的方法相比,它在感知质量和语音清晰度方面仍表现不佳,WB-PESQ分数范围为1.62至1.71,STOI分数在0.76至0.78之间。 这些限制归因于架构调优不足、缺乏微调以及训练时间不足。 尽管如此,结合神经音频编解码器和潜在扩散模型的灵活架构为未来的发展提供了坚实的基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.