计算机科学 > 声音
[提交于 2025年6月23日
]
标题: 在不同性别下在音素尺度上评估多通道语音增强算法
标题: Evaluating Multichannel Speech Enhancement Algorithms at the Phoneme Scale Across Genders
摘要: 多通道语音增强算法对于在嘈杂环境中提高语音信号的可懂度至关重要。 这些算法通常在话语级别进行评估,但这种方法忽略了不同音素类别以及男性和女性说话者之间的声学特征差异。 本文研究了性别和语音内容对语音增强算法的影响。 我们通过概述与音素和性别相关的频谱特征来说明这种方法的动机。 我们的实验结果显示,虽然性别之间的话语级别差异很小,但在音素级别上出现了显著变化。 结果表明,测试的算法在女性语音上能更好地减少干扰并产生更少的伪影,尤其是在爆破音、摩擦音和元音方面。 此外,它们在感知和语音识别指标方面表现出更好的女性语音性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.