计算机科学 > 声音
[提交于 2025年8月31日
]
标题: 基于LogNNet的嵌入式系统语音命令识别
标题: Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems
摘要: 本文提出了一种低资源语音命令识别器,结合了基于能量的语音活动检测(VAD)、优化的梅尔频率倒谱系数(MFCC)处理流程以及LogNNet水库计算分类器。 使用来自语音命令数据集的四个命令,下采样至8 kHz,我们评估了四种MFCC聚合方案,并发现自适应分箱(64维特征向量)在准确率与紧凑性之间提供了最佳平衡。 具有架构64:33:9:4的LogNNet分类器在说话人独立评估下达到92.04%的准确率,同时所需的参数显著少于传统深度学习模型。 在Arduino Nano 33 IoT(ARM Cortex-M0+,48 MHz,32 KB RAM)上的硬件实现验证了实际可行性,在仅消耗18 KB RAM(55%利用率)的情况下实现了约90%的实时识别准确率。 因此,完整的流程(VAD -> MFCC -> LogNNet)在严格的内存和计算限制下实现了可靠的设备端语音命令识别,使其适用于电池供电的物联网节点、无线传感器网络和免提控制界面。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.