计算机科学 > 声音
[提交于 2025年1月3日
]
标题: 控制您的属性在语音中
标题: Controlling your Attributes in Voice
摘要: 属性控制在生成任务中旨在修改个人属性,如年龄和性别,同时保留源样本中的身份信息。 尽管在图像生成中对面部属性的控制取得了显著进展,但类似的方法在语音生成中仍大多未被探索。 这封信提出了一种在没有平行数据的情况下控制说话人属性的新方法。 我们的方法包括两个主要组成部分:基于GAN的说话人表示变分自编码器,从说话人向量中提取说话人身份和属性,以及一个两阶段的声音转换模型,该模型捕捉语音中说话人属性的自然表达。 实验结果表明,我们提出的方法不仅在说话人表示层面实现了属性控制,还能够在保持语音质量和说话人身份的同时,在语音层面实现对说话人年龄和性别的操控。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.