Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.07384

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2507.07384 (cs)
[提交于 2025年7月10日 ]

标题: VP-SelDoA:通过语义-空间匹配的视觉提示选择性到达方向估计

标题: VP-SelDoA: Visual-prompted Selective DoA Estimation of Target Sound via Semantic-Spatial Matching

Authors:Yu Chen, Xinyuan Qian, Hongxu Zhu, Jiadong Wang, Kainan Chen, Haizhou Li
摘要: 音视频声源定位(AV-SSL)通过利用听觉和视觉信号的互补优势来确定声源的位置。 然而,现有的AV-SSL方法面临三个主要挑战:1)在多源场景中无法选择性地隔离目标声源,2)语义视觉特征与空间声学特征之间的错位,3)对配对的音视频数据过度依赖。 为克服这些限制,我们引入了跨实例音视频定位(CI-AVL),这是一个新任务,利用同一声音事件类别的不同实例的图像来定位目标声源,从而减少对配对数据的依赖,同时增强泛化能力。 我们提出的VP-SelDoA通过语义级模态融合来解决这一具有挑战性的任务,并采用频率-时间ConMamba架构生成目标选择性掩码以实现声音隔离。 我们进一步开发了一个语义-空间匹配机制,通过集成的交叉注意力和自注意力机制来对齐异构的语义和空间特征。 为了促进CI-AVL的研究,我们构建了一个名为VGG-SSL的大规模数据集,包含296个声音事件类别中的13,981个空间音频片段。 大量实验表明,我们提出的方法优于最先进的音视频定位方法,实现了12.04的平均绝对误差(MAE)和78.23%的准确率(ACC)。
摘要: Audio-visual sound source localization (AV-SSL) identifies the position of a sound source by exploiting the complementary strengths of auditory and visual signals. However, existing AV-SSL methods encounter three major challenges: 1) inability to selectively isolate the target sound source in multi-source scenarios, 2) misalignment between semantic visual features and spatial acoustic features, and 3) overreliance on paired audio-visual data. To overcome these limitations, we introduce Cross-Instance Audio-Visual Localization (CI-AVL), a novel task that leverages images from different instances of the same sound event category to localize target sound sources, thereby reducing dependence on paired data while enhancing generalization capabilities. Our proposed VP-SelDoA tackles this challenging task through a semantic-level modality fusion and employs a Frequency-Temporal ConMamba architecture to generate target-selective masks for sound isolation. We further develop a Semantic-Spatial Matching mechanism that aligns the heterogeneous semantic and spatial features via integrated cross- and self-attention mechanisms. To facilitate the CI-AVL research, we construct a large-scale dataset named VGG-SSL, comprising 13,981 spatial audio clips across 296 sound event categories. Extensive experiments show that our proposed method outperforms state-of-the-art audio-visual localization methods, achieving a mean absolute error (MAE) of 12.04 and an accuracy (ACC) of 78.23%.
评论: 正在审核中
主题: 声音 (cs.SD) ; 音频与语音处理 (eess.AS)
引用方式: arXiv:2507.07384 [cs.SD]
  (或者 arXiv:2507.07384v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.07384
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yu Chen [查看电子邮件]
[v1] 星期四, 2025 年 7 月 10 日 02:49:56 UTC (39,951 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号