计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: PAIR-Net:通过预训练的音视频融合与对齐损失增强自我中心说话者检测
标题: PAIR-Net: Enhancing Egocentric Speaker Detection via Pretrained Audio-Visual Fusion and Alignment Loss
摘要: 第一人称视频中的说话人检测(ASD)由于视点不稳定、运动模糊以及语音来源超出画面范围等因素,带来了独特的挑战——在这些条件下,传统的视觉为中心的方法会显著退化。 我们提出了PAIR-Net(预训练的带正则化的音频-视觉集成网络),这是一种有效的模型,它将部分冻结的Whisper音频编码器与经过微调的AV-HuBERT视觉主干相结合,以稳健地融合跨模态线索。 为了对抗模态不平衡,我们引入了一种跨模态对齐损失,该损失同步音频和视觉表示,从而在模态间实现更一致的收敛。 无需依赖多说话人上下文或理想的正面视图,PAIR-Net在Ego4D ASD基准测试中达到了76.6%的mAP,分别超过了LoCoNet和STHG 8.2%和12.9%的mAP。 我们的结果显示了预训练音频先验和基于对齐的融合在真实的第一人称条件下进行鲁棒ASD的价值。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.