计算机科学 > 声音
[提交于 2025年8月30日
]
标题: SaD:一种场景感知的语音增强鉴别器
标题: SaD: A Scenario-Aware Discriminator for Speech Enhancement
摘要: 基于生成对抗网络的模型在语音增强领域表现出色。 然而,当前这些模型的优化策略主要集中在改进生成器的架构或提升判别器的质量评估指标上。 这种方法常常忽略了不同场景中固有的丰富上下文信息。 在本文中,我们提出了一种场景感知的判别器,该判别器能够捕捉场景特定特征并执行频域划分,从而实现对生成器生成的增强语音更准确的质量评估。 我们在三个代表性模型上使用两个公开数据集进行了全面实验。 结果表明,我们的方法可以在不改变生成器结构的情况下有效适应各种生成器架构,从而在不同场景下的语音增强中实现进一步的性能提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.