电气工程与系统科学 > 音频与语音处理
[提交于 2025年10月5日
]
标题: 一种多语言框架用于构音障碍:检测、严重程度分类、语音到文本和清晰语音生成
标题: A Multilingual Framework for Dysarthria: Detection, Severity Classification, Speech-to-Text, and Clean Speech Generation
摘要: 构音障碍是一种运动性言语障碍,导致言语缓慢且常常难以理解。 言语可理解性显著影响交流,导致社交互动中的障碍。 构音障碍通常是神经系统疾病的特征,包括帕金森病和ALS,但目前的工具在不同语言和严重程度之间缺乏通用性。 在本研究中,我们提出了一种统一的基于人工智能的多语言框架,解决了六个关键组件:(1) 二元构音障碍检测,(2) 严重程度分类,(3) 清晰言语生成,(4) 言语到文本转换,(5) 情绪检测,和(6) 语音克隆。 我们分析了英语、俄语和德语的数据集,使用基于频谱图的可视化和声学特征提取来指导模型训练。 我们的二元检测模型在所有三种语言中达到了97%的准确率,证明了在不同语言之间的强大泛化能力。 严重程度分类模型也达到了97%的测试准确率,可解释的结果显示模型注意力集中在低谐波上。 我们的翻译管道,在配对的俄语构音障碍和清晰语音上进行训练,以低训练(0.03)和测试(0.06)L1损失重建了可理解的输出。 鉴于英语构音障碍-清晰语音对的可用性有限,我们在英语数据上微调了俄语模型,并实现了改进的损失值0.02(训练)和0.03(测试),突显了跨语言迁移学习在低资源环境中的潜力。 我们的言语到文本管道在三个周期后实现了0.1367的词错误率,表明对构音障碍言语的准确转录,并从转录的言语中实现了下游情绪识别和语音克隆。 总体而言,本研究的结果和产品可用于诊断构音障碍,并改善不同语言患者的交流和理解。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.