计算机科学 > 声音
[提交于 2025年9月1日
]
标题: 从混乱到和谐:基于分解协和的音频和弦估计训练方法
标题: From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
摘要: 音频和弦估计(ACE)在音乐信息研究中起着关键作用,由于其与音乐转录和分析的相关性,已有二十多年的研究关注。 尽管取得了显著进展,该任务仍然存在挑战,特别是关于和声内容的独特特性,这导致现有系统的性能达到了一个瓶颈。 这些挑战包括标注者主观性,不同标注者之间的不同解释导致不一致,以及和弦数据集中的类别不平衡,某些和弦类别比其他类别更常出现,这给模型训练和评估带来了困难。 作为第一项贡献,本文提出了对和弦标注中标注者间一致性的评估,使用了超越传统二元度量的指标。 此外,我们提出了一种基于协和性的距离度量,反映了和声标注之间的感知相似性。 我们的分析表明,基于协和性的距离度量更能有效地捕捉标注之间的音乐上有意义的一致性。 在这些发现的基础上,我们引入了一种基于转换器的新型ACE模型,通过基于协和性的标签平滑将协和概念整合到模型中。 所提出的模型还通过分别估计根音、低音和所有音符激活来解决类别不平衡问题,从而能够从分解后的输出中重建和弦标签。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.