计算机科学 > 计算与语言
[提交于 2025年7月12日
]
标题: 清晰语音:语音中的痴呆混淆
标题: ClaritySpeech: Dementia Obfuscation in Speech
摘要: 痴呆症是一种神经退行性疾病,会改变说话模式,造成交流障碍并引发隐私问题。 当前的语音技术,如自动语音识别(ASR),在处理痴呆症和非典型语音时存在困难,进一步挑战了可访问性。 本文提出了一种新的语音中痴呆症混淆框架ClaritySpeech,结合ASR、文本混淆和零样本文本到语音(TTS),在低数据环境中无需微调即可纠正受痴呆影响的语音并保持说话者身份。 结果表明,在各种对抗设置和模态(音频、文本、融合)下,ADReSS和ADReSSo的平均F1分数分别下降了16%和10%,同时保持50%的说话者相似度。 我们还发现,我们的系统提高了WER(ADReSS从0.73提高到0.08,ADReSSo从0.15提高到0.08),语音质量从1.65提高到约2.15,从而增强了隐私性和可访问性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.