Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2509.02622

帮助 | 高级搜索

电气工程与系统科学 > 音频与语音处理

arXiv:2509.02622 (eess)
[提交于 2025年9月1日 ]

标题: IS${}^3$ : 使用深度过滤的声学场景中通用的脉冲-稳态声音分离

标题: IS${}^3$ : Generic Impulsive--Stationary Sound Separation in Acoustic Scenes using Deep Filtering

Authors:Berger Clémentine (IDS, S2A), Stamadiatis Paraskevas (IDS, S2A), Badeau Roland (IDS, S2A), Essid Slim (IDS, S2A)
摘要: 我们感兴趣的是能够对声景中的静止背景和孤立声学事件进行区分处理的音频系统,无论是在对每个部分应用特定处理方法时,还是仅关注其中一个而忽略另一个时。 此类系统在现实世界场景中有应用,包括稳健的自适应音频渲染系统(例如均衡器或压缩),语音混音中的爆破音衰减,噪声抑制或减少,稳健的声学事件分类甚至生物声学。 为此,我们引入了IS${}^3$,一种专为脉冲-静止声音分离设计的神经网络,它使用深度过滤方法将脉冲声学事件从静止背景中分离出来,可以作为上述任务的预处理阶段。 为了确保最佳训练,我们提出了一种复杂的数据生成流程,该流程整理并适应现有数据集以完成此任务。 我们证明,基于相对轻量级神经架构并使用精心设计和多样化数据训练的学习方法,在这一此前未涉及的任务中是成功的,其表现优于从音乐信号处理研究中改编的谐波-打击声分离掩码方法以及小波滤波在客观分离指标上的表现。
摘要: We are interested in audio systems capable of performing a differentiated processing of stationary backgrounds and isolated acoustic events within an acoustic scene, whether for applying specific processing methods to each part or for focusing solely on one while ignoring the other. Such systems have applications in real-world scenarios, including robust adaptive audio rendering systems (e.g., EQ or compression), plosive attenuation in voice mixing, noise suppression or reduction, robust acoustic event classification or even bioacoustics. To this end, we introduce IS${}^3$, a neural network designed for Impulsive--Stationary Sound Separation, that isolates impulsive acoustic events from the stationary background using a deep filtering approach, that can act as a pre-processing stage for the above-mentioned tasks. To ensure optimal training, we propose a sophisticated data generation pipeline that curates and adapts existing datasets for this task. We demonstrate that a learning-based approach, build on a relatively lightweight neural architecture and trained with well-designed and varied data, is successful in this previously unaddressed task, outperforming the Harmonic--Percussive Sound Separation masking method, adapted from music signal processing research, and wavelet filtering on objective separation metrics.
主题: 音频与语音处理 (eess.AS) ; 人工智能 (cs.AI); 声音 (cs.SD); 信号处理 (eess.SP)
引用方式: arXiv:2509.02622 [eess.AS]
  (或者 arXiv:2509.02622v1 [eess.AS] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.02622
通过 DataCite 发表的 arXiv DOI(待注册)
期刊参考: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, IEEE, Oct 2025, Tahoe City, CA, United States

提交历史

来自: Clementine Berger [查看电子邮件]
[v1] 星期一, 2025 年 9 月 1 日 08:55:29 UTC (819 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
eess.AS
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
cs
cs.AI
cs.SD
eess
eess.SP

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号