计算机科学 > 声音
[提交于 2025年1月3日
]
标题: 面向神经目标说话人的改进特征提取网络
标题: Improved Feature Extraction Network for Neuro-Oriented Target Speaker Extraction
摘要: 最近听觉注意力解码(AAD)的快速发展为使用脑电图(EEG)作为目标说话人提取的辅助信息提供了可能性。 然而,有效建模语音的长序列并从EEG信号中解析目标说话人的身份仍然是一个主要挑战。 本文提出了一种改进的特征提取网络(IFENet),用于面向神经的目标说话人提取,该网络主要由一个具有双路径Mamba的语音编码器和一个具有Kolmogorov-Arnold网络(KAN)的EEG编码器组成。 我们提出了SpeechBiMamba,利用双路径Mamba对局部和全局语音序列进行建模以提取语音特征。 此外,我们提出了EEGKAN,以有效提取与听觉刺激密切相关的EEG特征,并通过受试者的注意力信息定位目标说话人。 在KUL和AVED数据集上的实验表明,IFENet优于最先进的模型,在开放评估条件下,尺度不变信噪比(SI-SDR)分别实现了36%和29%的相对提升。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.