Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.01673

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2501.01673 (cs)
[提交于 2025年1月3日 ]

标题: 面向神经目标说话人的改进特征提取网络

标题: Improved Feature Extraction Network for Neuro-Oriented Target Speaker Extraction

Authors:Cunhang Fan, Youdian Gao, Zexu Pan, Jingjing Zhang, Hongyu Zhang, Jie Zhang, Zhao Lv
摘要: 最近听觉注意力解码(AAD)的快速发展为使用脑电图(EEG)作为目标说话人提取的辅助信息提供了可能性。 然而,有效建模语音的长序列并从EEG信号中解析目标说话人的身份仍然是一个主要挑战。 本文提出了一种改进的特征提取网络(IFENet),用于面向神经的目标说话人提取,该网络主要由一个具有双路径Mamba的语音编码器和一个具有Kolmogorov-Arnold网络(KAN)的EEG编码器组成。 我们提出了SpeechBiMamba,利用双路径Mamba对局部和全局语音序列进行建模以提取语音特征。 此外,我们提出了EEGKAN,以有效提取与听觉刺激密切相关的EEG特征,并通过受试者的注意力信息定位目标说话人。 在KUL和AVED数据集上的实验表明,IFENet优于最先进的模型,在开放评估条件下,尺度不变信噪比(SI-SDR)分别实现了36%和29%的相对提升。
摘要: The recent rapid development of auditory attention decoding (AAD) offers the possibility of using electroencephalography (EEG) as auxiliary information for target speaker extraction. However, effectively modeling long sequences of speech and resolving the identity of the target speaker from EEG signals remains a major challenge. In this paper, an improved feature extraction network (IFENet) is proposed for neuro-oriented target speaker extraction, which mainly consists of a speech encoder with dual-path Mamba and an EEG encoder with Kolmogorov-Arnold Networks (KAN). We propose SpeechBiMamba, which makes use of dual-path Mamba in modeling local and global speech sequences to extract speech features. In addition, we propose EEGKAN to effectively extract EEG features that are closely related to the auditory stimuli and locate the target speaker through the subject's attention information. Experiments on the KUL and AVED datasets show that IFENet outperforms the state-of-the-art model, achieving 36\% and 29\% relative improvements in terms of scale-invariant signal-to-distortion ratio (SI-SDR) under an open evaluation condition.
评论: 被ICASSP 2025接受
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
引用方式: arXiv:2501.01673 [cs.SD]
  (或者 arXiv:2501.01673v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.01673
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Youdian Gao [查看电子邮件]
[v1] 星期五, 2025 年 1 月 3 日 07:27:51 UTC (389 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号