计算机科学 > 声音
[提交于 2025年9月3日
]
标题: 多级SSL特征门控用于音频深度伪造检测
标题: Multi-level SSL Feature Gating for Audio Deepfake Detection
摘要: 最近生成式人工智能的进展,尤其是在语音合成方面,使得生成高度自然的合成语音成为可能,这种语音非常接近人类的声音。 尽管这些创新在辅助技术等应用中具有前景,但也带来了重大风险,包括被滥用于欺诈活动、身份盗窃和安全威胁。 目前针对欺骗检测的对策研究仍受限于对未见过的深度伪造攻击和语言的泛化能力。 为了解决这个问题,我们提出了一种门控机制,从语音基础模型XLS-R中提取相关特征作为前端特征提取器。 对于下游后端分类器,我们采用多核门控卷积(MultiConv)来捕捉局部和全局的语音伪影。 此外,我们引入中心核对齐(CKA)作为相似性度量,以在不同MultiConv层之间强制学习特征的多样性。 通过将CKA与我们的门控机制结合,我们假设每个组件都有助于提高对不同合成语音模式的学习效果。 实验结果表明,我们的方法在领域内基准测试中达到了最先进性能,并且在领域外数据集上具有强大的泛化能力,包括多语言语音样本。 这突显了其作为检测不断演变的语音深度伪造威胁的多功能解决方案的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.