Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

Izotov, Yuriy; Velichko, Andrei

计算机科学 > 声音

arXiv:2509.00862 (cs)

[提交于 2025年8月31日 ]

标题：基于LogNNet的嵌入式系统语音命令识别

标题： Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

Authors:Yuriy Izotov, Andrei Velichko

摘要：本文提出了一种低资源语音命令识别器，结合了基于能量的语音活动检测（VAD）、优化的梅尔频率倒谱系数（MFCC）处理流程以及LogNNet水库计算分类器。使用来自语音命令数据集的四个命令，下采样至8 kHz，我们评估了四种MFCC聚合方案，并发现自适应分箱（64维特征向量）在准确率与紧凑性之间提供了最佳平衡。具有架构64:33:9:4的LogNNet分类器在说话人独立评估下达到92.04%的准确率，同时所需的参数显著少于传统深度学习模型。在Arduino Nano 33 IoT（ARM Cortex-M0+，48 MHz，32 KB RAM）上的硬件实现验证了实际可行性，在仅消耗18 KB RAM（55%利用率）的情况下实现了约90%的实时识别准确率。因此，完整的流程（VAD -> MFCC -> LogNNet）在严格的内存和计算限制下实现了可靠的设备端语音命令识别，使其适用于电池供电的物联网节点、无线传感器网络和免提控制界面。

摘要： This paper presents a low-resource speech-command recognizer combining energy-based voice activity detection (VAD), an optimized Mel-Frequency Cepstral Coefficients (MFCC) pipeline, and the LogNNet reservoir-computing classifier. Using four commands from the Speech Commands da-taset downsampled to 8 kHz, we evaluate four MFCC aggregation schemes and find that adaptive binning (64-dimensional feature vector) offers the best accuracy-to-compactness trade-off. The LogNNet classifier with architecture 64:33:9:4 reaches 92.04% accuracy under speaker-independent evaluation, while requiring significantly fewer parameters than conventional deep learn-ing models. Hardware implementation on Arduino Nano 33 IoT (ARM Cor-tex-M0+, 48 MHz, 32 KB RAM) validates the practical feasibility, achieving ~90% real-time recognition accuracy while consuming only 18 KB RAM (55% utilization). The complete pipeline (VAD -> MFCC -> LogNNet) thus enables reliable on-device speech-command recognition under strict memory and compute limits, making it suitable for battery-powered IoT nodes, wire-less sensor networks, and hands-free control interfaces.

评论：	20页，6图
主题：	声音 (cs.SD) ; 人工智能 (cs.AI); 机器学习 (cs.LG); 音频与语音处理 (eess.AS)
引用方式：	arXiv:2509.00862 [cs.SD]
	(或者 arXiv:2509.00862v1 [cs.SD] 对于此版本)
	https://doi.org/10.48550/arXiv.2509.00862

提交历史

来自： Andrei Velichko [查看电子邮件]
[v1] 星期日， 2025 年 8 月 31 日 14:16:09 UTC (875 KB)

计算机科学 > 声音

标题：基于LogNNet的嵌入式系统语音命令识别

标题： Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 声音

标题： 基于LogNNet的嵌入式系统语音命令识别 显示英文标题

标题： Speech Command Recognition Using LogNNet Reservoir Computing for Embedded Systems

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题：基于LogNNet的嵌入式系统语音命令识别