Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2509.03013v2

帮助 | 高级搜索

电气工程与系统科学 > 音频与语音处理

arXiv:2509.03013v2 (eess)
[提交于 2025年9月3日 (v1) ,最后修订 2025年9月4日 (此版本, v2)]

标题: 基于不确定性感知的Whisper嵌入和sLSTM的语音可懂度评估

标题: Speech Intelligibility Assessment with Uncertainty-Aware Whisper Embeddings and sLSTM

Authors:Ryandhimas E. Zezario, Dyah A.M.G. Wisnu, Hsin-Min Wang, Yu Tsao
摘要: 非侵入式语音可懂度预测由于说话人差异、噪声条件和主观感知的多样性而仍然具有挑战性。 我们提出了一种考虑不确定性的方法,该方法结合Whisper嵌入和统计特征,特别是跨嵌入维度计算的均值、标准差和熵。 通过特征维度上的softmax计算得到的熵作为不确定性的代理,补充了由均值和标准差捕获的全局信息。 为了建模语音的序列结构,我们采用了一个标量长短期记忆(sLSTM)网络,该网络能够高效地捕捉长距离依赖关系。 在此基础上,我们提出了iMTI-Net,一种改进的多目标可懂度预测网络,在多任务学习框架中集成了卷积神经网络(CNN)和sLSTM组件。 它联合预测人类可懂度分数以及来自Google ASR和Whisper的基于机器的词错误率(WER)。 实验结果表明,iMTI-Net在多个评估指标上优于原始的MTI-Net,证明了引入考虑不确定性的特征以及CNN-sLSTM架构的有效性。
摘要: Non-intrusive speech intelligibility prediction remains challenging due to variability in speakers, noise conditions, and subjective perception. We propose an uncertainty-aware approach that leverages Whisper embeddings in combination with statistical features, specifically the mean, standard deviation, and entropy computed across the embedding dimensions. The entropy, computed via a softmax over the feature dimension, serves as a proxy for uncertainty, complementing global information captured by the mean and standard deviation. To model the sequential structure of speech, we adopt a scalar long short-term memory (sLSTM) network, which efficiently captures long-range dependencies. Building on this foundation, we propose iMTI-Net, an improved multi-target intelligibility prediction network that integrates convolutional neural network (CNN) and sLSTM components within a multitask learning framework. It jointly predicts human intelligibility scores and machine-based word error rates (WER) from Google ASR and Whisper. Experimental results show that iMTI-Net outperforms the original MTI-Net across multiple evaluation metrics, demonstrating the effectiveness of incorporating uncertainty-aware features and the CNN-sLSTM architecture.
评论: 被APSIPA ASC 2025接收
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
引用方式: arXiv:2509.03013 [eess.AS]
  (或者 arXiv:2509.03013v2 [eess.AS] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.03013
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Ryandhimas Zezario [查看电子邮件]
[v1] 星期三, 2025 年 9 月 3 日 04:42:58 UTC (352 KB)
[v2] 星期四, 2025 年 9 月 4 日 04:34:19 UTC (352 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
eess.AS
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
cs.SD
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号