电气工程与系统科学 > 音频与语音处理
[提交于 2025年8月6日
]
标题: 基于HRTF定位线索的人形机器人双耳声音事件定位与检测神经网络
标题: Binaural Sound Event Localization and Detection Neural Network based on HRTF Localization Cues for Humanoid Robots
摘要: 人形机器人需要同时估计声音事件类型和方向以实现情境感知,但传统的双通道输入在仰角估计和前后混淆方面存在困难。 本文提出了一种双耳声音事件定位与检测(BiSELD)神经网络来解决这些挑战。 BiSELDnet从双耳输入特征中学习时间-频率模式和头部相关传递函数(HRTF)定位线索。 引入了一种新颖的八通道双耳时间-频率特征(BTFF),包括左右梅尔频谱图、V图、双耳时间差(ITD)图(低于1.5 kHz)、双耳强度差(ILD)图(高于5 kHz且具有前后不对称性)以及频谱线索(SC)图(高于5 kHz用于仰角)。 BTFF的有效性在全向、水平和中位平面上得到了验证。 BiSELDnet,特别是基于高效Trinity模块的版本,被实现为每个声音事件类输出方向向量的时间序列,从而实现同时检测和定位。 提出了向量激活图(VAM)可视化来分析网络学习,证实BiSELDnet专注于N1凹陷频率进行仰角估计。 在城市背景噪声条件下的比较评估表明,所提出的BiSELD模型在双耳输入下显著优于最先进的(SOTA)SELD模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.