计算机科学 > 声音
[提交于 2025年8月28日
]
标题: SincQDR-VAD:一种利用可学习滤波器和排名感知优化的噪声鲁棒语音活动检测框架
标题: SincQDR-VAD: A Noise-Robust Voice Activity Detection Framework Leveraging Learnable Filters and Ranking-Aware Optimization
摘要: 语音活动检测(VAD)对于语音驱动的应用至关重要,但在噪声和资源受限的环境中仍远未完善。 现有方法在噪声方面缺乏鲁棒性,且它们的帧级分类损失与VAD的评估指标仅松散耦合。 为解决这些挑战,我们提出了SincQDR-VAD,这是一种紧凑且鲁棒的框架,结合了Sinc提取器前端和一种新颖的二次差异排序损失。 Sinc提取器使用可学习的带通滤波器来捕捉抗噪声的频谱特征,而排序损失则优化语音和非语音帧之间的成对得分顺序,以提高接收者操作特性曲线下的面积(AUROC)。 在代表性基准数据集上进行的一系列实验表明,我们的框架显著提高了AUROC和F2-Score,同时仅使用了先前方法69%的参数,证实了其效率和实际可行性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.