Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00348

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2501.00348 (cs)
[提交于 2024年12月31日 ]

标题: 时间信息重构与脉冲神经网络中的非对齐残差用于语音分类

标题: Temporal Information Reconstruction and Non-Aligned Residual in Spiking Neural Networks for Speech Classification

Authors:Qi Zhang, Huamin Wang, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang
摘要: 最近,可以注意到大多数基于脉冲神经网络(SNNs)的模型仅使用相同的时间分辨率来处理语音分类问题,这使得这些模型无法在不同时间尺度上学习输入数据的信息。此外,由于许多模型的子模块前后数据的时间长度不同,有效的残差连接无法用于优化这些模型的训练过程。为了解决这些问题,一方面,我们通过参考人类大脑理解语音的分层处理过程,重构音频频谱的时间维度,提出了一种名为时间重构(TR)的新方法。然后,具有TR的重构SNN模型可以在不同时间尺度上学习输入数据的信息,并且因为使网络能够在不同时间分辨率上学习输入数据的信息,从而从音频数据中建模更全面的语义信息。另一方面,我们通过分析音频数据提出了非对齐残差(NAR)方法,使得残差连接可以用于时间长度不同的两个音频数据。我们在Spiking Speech Commands(SSC)、Spiking Heidelberg Digits(SHD)和Google Speech Commands v0.02(GSC)数据集上进行了大量实验。根据实验结果,我们在所有SNN模型的测试分类准确率上在SSC数据集上达到了最先进的(SOTA)结果81.02%,并在所有模型的分类准确率上在SHD数据集上获得了SOTA结果96.04%。
摘要: Recently, it can be noticed that most models based on spiking neural networks (SNNs) only use a same level temporal resolution to deal with speech classification problems, which makes these models cannot learn the information of input data at different temporal scales. Additionally, owing to the different time lengths of the data before and after the sub-modules of many models, the effective residual connections cannot be applied to optimize the training processes of these models.To solve these problems, on the one hand, we reconstruct the temporal dimension of the audio spectrum to propose a novel method named as Temporal Reconstruction (TR) by referring the hierarchical processing process of the human brain for understanding speech. Then, the reconstructed SNN model with TR can learn the information of input data at different temporal scales and model more comprehensive semantic information from audio data because it enables the networks to learn the information of input data at different temporal resolutions. On the other hand, we propose the Non-Aligned Residual (NAR) method by analyzing the audio data, which allows the residual connection can be used in two audio data with different time lengths. We have conducted plentiful experiments on the Spiking Speech Commands (SSC), the Spiking Heidelberg Digits (SHD), and the Google Speech Commands v0.02 (GSC) datasets. According to the experiment results, we have achieved the state-of-the-art (SOTA) result 81.02\% on SSC for the test classification accuracy of all SNN models, and we have obtained the SOTA result 96.04\% on SHD for the classification accuracy of all models.
评论: 9页,5图
主题: 声音 (cs.SD) ; 人工智能 (cs.AI); 音频与语音处理 (eess.AS)
引用方式: arXiv:2501.00348 [cs.SD]
  (或者 arXiv:2501.00348v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00348
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Huamin Wang [查看电子邮件]
[v1] 星期二, 2024 年 12 月 31 日 08:52:40 UTC (2,221 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号