电气工程与系统科学 > 音频与语音处理
[提交于 2025年8月6日
]
标题: 多语言语音深度伪造源追踪:首个基准测试
标题: Multilingual Source Tracing of Speech Deepfakes: A First Benchmark
摘要: 最近生成式AI的进展使得仅需几秒钟的音频就能创建出听起来自然的深度伪造语音变得更加容易。 尽管这些工具支持有益的应用,但它们也引发了严重的问题,因为可以生成许多语言的令人信服的虚假语音。 当前的研究主要集中在检测虚假语音上,但对于追踪生成虚假语音的源模型却关注较少。 本文介绍了第一个多语言语音深度伪造源追踪的基准,涵盖了单语和跨语言场景。 我们比较研究了DSP和SSL建模;探讨了在不同语言上微调的SSL表示如何影响跨语言泛化性能;并评估了对未见过的语言和说话人的泛化能力。 我们的研究结果提供了在训练和推理语言不同时识别语音生成模型的挑战方面的首次全面见解。 数据集、协议和代码可在 https://github.com/xuanxixi/Multilingual-Source-Tracing 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.