计算机科学 > 声音
[提交于 2025年7月14日
(v1)
,最后修订 2025年7月20日 (此版本, v2)]
标题: 使用自动语音识别支持SENCOTEN语言文档工作
标题: Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition
摘要: 塞恩科滕语是在加拿大温哥华岛南部的萨尼奇半岛上使用的语言,目前正面临着激烈的语言复兴努力,以扭转由于殖民语言政策导致的语言流失。为了支持这些实地的努力,社区正在转向数字技术。自动语音识别(ASR)技术在加速语言记录和教育资料的创建方面具有巨大潜力。然而,由于数据有限以及由于其多合成结构和重音驱动的元音变化而导致的显著词汇差异,为塞恩科滕语开发ASR系统具有挑战性。为了解决这些挑战,我们提出了一种基于ASR的文档流程,利用文本到语音(TTS)系统生成的增强语音数据,并结合语音基础模型(SFMs)进行跨语言迁移学习。通过浅层融合或n最佳恢复,还集成了一个n-gram语言模型,以最大限度地利用可用数据。在塞恩科滕数据集上的实验显示,在测试集上词错误率(WER)为19.34%,字符错误率(CER)为5.09%,其中未见词的比例为57.02%。在过滤掉少量软音符相关的错误后,WER提高到14.32%(未见词为26.48%),CER提高到3.45%,这表明我们的基于ASR的流程在支持塞恩科滕语文档方面具有潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.