计算机科学 > 计算机视觉与模式识别
[提交于 2024年8月31日
]
标题: 多尺度多实例视觉声音定位与分割
标题: Multi-scale Multi-instance Visual Sound Localization and Segmentation
摘要: 视觉声源定位是一个典型且具有挑战性的问题,旨在预测视频中与声源相对应的物体位置。 先前的方法主要利用全局音频与单尺度视觉特征之间的视听关联来定位每张图像中的发声物体。 尽管这些方法表现良好,但它们忽略了相应图像的多尺度视觉特征,并且无法像真实标签那样学习判别区域。 为了解决这个问题,我们提出了一种新颖的多尺度多实例视觉声源定位框架,即M2VSL,该框架可以直接从输入图像中学习与声源相关的多尺度语义特征以定位发声物体。 具体而言,我们的M2VSL利用可学习的多尺度视觉特征,在相应图像的多级位置上对视听表示进行对齐。 我们还引入了一种新颖的多尺度多实例变换器,用于动态聚合多尺度跨模态表示以实现视觉声源定位。 我们在VGGSound-Instruments、VGG-Sound Sources和AVSBench基准数据集上进行了广泛的实验。 结果表明,所提出的M2VSL在发声物体定位和分割方面可以达到最先进的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.