计算机科学 > 声音
[提交于 2025年7月10日
]
标题: DMF2Mel:一种动态多尺度融合网络用于脑电驱动的梅尔频谱重建
标题: DMF2Mel: A Dynamic Multiscale Fusion Network for EEG-Driven Mel Spectrogram Reconstruction
摘要: 从脑信号中解码语音是一个具有挑战性的研究问题。 尽管现有技术在重建听觉刺激的梅尔频谱图方面取得了进展,特别是在单词或字母级别,但在精确重建分钟级连续想象语音方面仍存在核心挑战:传统模型难以在时间依赖性建模的效率和长序列解码中的信息保留之间取得平衡。 为了解决这个问题,本文提出了动态多尺度融合网络(DMF2Mel),该网络包含四个核心组件:动态对比特征聚合模块(DC-FAM)、分层注意力引导的多尺度网络(HAMS-Net)、样条映射注意力机制以及双向状态空间模块(convMamba)。 具体来说,DC-FAM通过局部卷积和全局注意力机制将与语音相关的“前景特征”从噪声“背景特征”中分离出来,有效抑制干扰并增强瞬态信号的表示。 基于U-Net框架的HAMS-Net实现了高层语义和低层细节的跨尺度融合。 SplineMap注意力机制集成了自适应门控科莫戈罗夫-阿诺德网络(AGKAN),将全局上下文建模与基于样条的局部拟合相结合。 convMamba以线性复杂度捕捉长程时间依赖性,并增强了非线性动态建模能力。 在SparrKULee数据集上的结果表明,DMF2Mel在已知受试者的梅尔频谱图重建中达到了0.074的皮尔逊相关系数(比基线提高了48%),在未知受试者中达到了0.048(比基线提高了35%)。代码可在以下链接获取:https://github.com/fchest/DMF2Mel。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.