计算机科学 > 声音
[提交于 2025年7月22日
(此版本)
, 最新版本 2025年7月24日 (v2)
]
标题: LENS-DF:长时噪声语音的深度伪造检测与时间定位
标题: LENS-DF: Deepfake Detection and Temporal Localization for Long-Form Noisy Speech
摘要: 本研究介绍了LENS-DF,这是一种新颖且全面的训练和评估音频深度伪造检测和时间定位的方案,在复杂和现实的音频条件下进行。 该方案的生成部分以可控的方式从输入数据集中输出具有多个关键特征的音频,例如更长的持续时间、噪声条件以及包含多个说话人。 相应的检测和定位协议使用模型。 我们基于自监督学习前端和简单的后端进行实验。 结果表明,使用LENS-DF生成的数据训练的模型始终优于通过传统方案训练的模型,证明了LENS-DF在鲁棒音频深度伪造检测和定位中的有效性和实用性。 我们还对引入的变化进行了消融研究,探讨它们对领域内现实挑战的影响和相关性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.