计算机科学 > 声音
[提交于 2025年7月10日
]
标题: VP-SelDoA:通过语义-空间匹配的视觉提示选择性到达方向估计
标题: VP-SelDoA: Visual-prompted Selective DoA Estimation of Target Sound via Semantic-Spatial Matching
摘要: 音视频声源定位(AV-SSL)通过利用听觉和视觉信号的互补优势来确定声源的位置。 然而,现有的AV-SSL方法面临三个主要挑战:1)在多源场景中无法选择性地隔离目标声源,2)语义视觉特征与空间声学特征之间的错位,3)对配对的音视频数据过度依赖。 为克服这些限制,我们引入了跨实例音视频定位(CI-AVL),这是一个新任务,利用同一声音事件类别的不同实例的图像来定位目标声源,从而减少对配对数据的依赖,同时增强泛化能力。 我们提出的VP-SelDoA通过语义级模态融合来解决这一具有挑战性的任务,并采用频率-时间ConMamba架构生成目标选择性掩码以实现声音隔离。 我们进一步开发了一个语义-空间匹配机制,通过集成的交叉注意力和自注意力机制来对齐异构的语义和空间特征。 为了促进CI-AVL的研究,我们构建了一个名为VGG-SSL的大规模数据集,包含296个声音事件类别中的13,981个空间音频片段。 大量实验表明,我们提出的方法优于最先进的音视频定位方法,实现了12.04的平均绝对误差(MAE)和78.23%的准确率(ACC)。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.