电气工程与系统科学 > 音频与语音处理
[提交于 2024年10月1日
]
标题: 使用合成模式的预训练用于音频
标题: Pre-training with Synthetic Patterns for Audio
摘要: 本文中,我们提议使用合成模式而非真实音频数据来预训练音频编码器。 我们提出的框架包含两个关键元素。 第一个是掩码自动编码器(MAE),这是一种自监督学习框架,通过从随机屏蔽的对应部分重建数据来学习。 MAEs 倾向于关注低级信息,如数据中的视觉模式和规律性。 因此,输入内容是什么并不重要,无论是图像、音频梅尔频谱图,甚至是合成模式。 这引出了第二个关键元素,即合成数据。 与真实音频不同,合成数据不存在隐私和许可侵权问题。 通过结合 MAEs 和合成模式,我们的框架使模型能够在没有真实数据的情况下学习通用特征表示,同时解决了与真实音频相关的问题。 为了评估我们框架的有效性,我们在总共 13 个音频任务和 17 个合成数据集上进行了广泛的实验。 这些实验提供了关于哪种类型的合成模式对音频有效的见解。 我们的结果显示,我们的框架在性能上可以媲美在 AudioSet-2M 上预训练的模型,并且在某些方面超过了基于图像的预训练方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.