计算机科学 > 声音
[提交于 2024年9月3日
]
标题: FastVoiceGrad:基于一步扩散的对抗条件扩散蒸馏的语音转换方法
标题: FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation
摘要: 基于扩散的语音转换(VC)技术,例如 VoiceGrad,因其在语音质量和说话人相似度方面的高性能而引起了兴趣。 然而,一个显著的局限性是多步反向扩散导致的推理速度缓慢。 因此,我们提出了 FastVoiceGrad,这是一种新颖的一步式扩散基语音转换方法,在将迭代次数从几十减少到一的同时继承了多步扩散基语音转换的高性能。 我们通过对抗条件扩散蒸馏(ACDD)获得该模型,利用生成对抗网络和扩散模型的能力,并重新考虑采样中的初始状态。 一次性的任意到任意语音转换评估表明,FastVoiceGrad 在语音转换性能上优于或可与先前的多步扩散基语音转换相媲美,同时提升了推理速度。 音频样本可在 https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/ 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.