Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2509.00988v1

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2509.00988v1 (cs)
[提交于 2025年8月31日 ]

标题: 一种统一的去噪和适应框架用于自监督的孟加拉语方言自动语音识别

标题: A Unified Denoising and Adaptation Framework for Self-Supervised Bengali Dialectal ASR

Authors:Swadhin Biswas, Imran, Tuhin Sheikh
摘要: 自动语音识别(ASR)对于孟加拉语,世界上第五大语言,仍然是一个重大挑战,严重阻碍了其超过2.7亿使用者的技术可及性。 这一挑战由两个持续且相互交织的因素加剧:该语言的广泛方言多样性以及现实环境中声学噪声的普遍性。 虽然最先进的自监督学习(SSL)模型已经推动了低资源语言的ASR发展,但它们在预训练期间通常缺乏处理环境噪声的显式机制,也没有针对孟加拉语方言中复杂的语音和词汇变化的专门适应策略。 本文介绍了一种新的统一框架,旨在同时解决这两个挑战。 我们的方法基于WavLM模型,该模型通过掩码语音去噪目标进行独特预训练,使其本质上对声学失真具有鲁棒性。 我们提出了一种专门的多阶段微调策略,首先将模型适应到通用领域的标准孟加拉语,以建立强大的语言基础,然后通过有针对性的数据增强,将其专门用于噪声鲁棒的方言识别。 该框架在一个涵盖多种孟加拉语方言的全面基准上进行了严格评估,在从干净音频到低信噪比(SNR)水平的各种模拟噪声条件下进行测试。 实验结果表明,所提出的框架显著优于强大的基线,包括标准微调的wav2vec 2.0和大规模多语言Whisper模型。 这项工作为该任务设定了新的最先进水平,并为在全球范围内开发其他低资源、高变化语言的实际ASR系统提供了可扩展、有效的蓝图。
摘要: Automatic Speech Recognition (ASR) for Bengali, the world's fifth most spoken language, remains a significant challenge, critically hindering technological accessibility for its over 270 million speakers. This challenge is compounded by two persistent and intertwined factors: the language's vast dialectal diversity and the prevalence of acoustic noise in real-world environments. While state-of-the-art self-supervised learning (SSL) models have advanced ASR for low-resource languages, they often lack explicit mechanisms to handle environmental noise during pre-training or specialized adaptation strategies for the complex phonetic and lexical variations across Bengali dialects. This paper introduces a novel, unified framework designed to address these dual challenges simultaneously. Our approach is founded on the WavLM model, which is uniquely pre-trained with a masked speech denoising objective, making it inherently robust to acoustic distortions. We propose a specialized multi-stage fine-tuning strategy that first adapts the model to general-domain standard Bengali to establish a strong linguistic foundation and subsequently specializes it for noise-robust dialectal recognition through targeted data augmentation. The framework is rigorously evaluated on a comprehensive benchmark comprising multiple Bengali dialects under a wide range of simulated noisy conditions, from clean audio to low Signal-to-Noise Ratio (SNR) levels. Experimental results demonstrate that the proposed framework significantly outperforms strong baselines, including standard fine-tuned wav2vec 2.0 and the large-scale multilingual Whisper model. This work establishes a new state-of-the-art for this task and provides a scalable, effective blueprint for developing practical ASR systems for other low-resource, high-variation languages globally.
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
引用方式: arXiv:2509.00988 [cs.SD]
  (或者 arXiv:2509.00988v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.00988
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Swadhin Biswas [查看电子邮件]
[v1] 星期日, 2025 年 8 月 31 日 20:51:59 UTC (605 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号