计算机科学 > 声音
[提交于 2024年12月31日
]
标题: 时间信息重构与脉冲神经网络中的非对齐残差用于语音分类
标题: Temporal Information Reconstruction and Non-Aligned Residual in Spiking Neural Networks for Speech Classification
摘要: 最近,可以注意到大多数基于脉冲神经网络(SNNs)的模型仅使用相同的时间分辨率来处理语音分类问题,这使得这些模型无法在不同时间尺度上学习输入数据的信息。此外,由于许多模型的子模块前后数据的时间长度不同,有效的残差连接无法用于优化这些模型的训练过程。为了解决这些问题,一方面,我们通过参考人类大脑理解语音的分层处理过程,重构音频频谱的时间维度,提出了一种名为时间重构(TR)的新方法。然后,具有TR的重构SNN模型可以在不同时间尺度上学习输入数据的信息,并且因为使网络能够在不同时间分辨率上学习输入数据的信息,从而从音频数据中建模更全面的语义信息。另一方面,我们通过分析音频数据提出了非对齐残差(NAR)方法,使得残差连接可以用于时间长度不同的两个音频数据。我们在Spiking Speech Commands(SSC)、Spiking Heidelberg Digits(SHD)和Google Speech Commands v0.02(GSC)数据集上进行了大量实验。根据实验结果,我们在所有SNN模型的测试分类准确率上在SSC数据集上达到了最先进的(SOTA)结果81.02%,并在所有模型的分类准确率上在SHD数据集上获得了SOTA结果96.04%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.