计算机科学 > 声音
[提交于 2025年8月28日
]
标题: 阿马迪乌斯:具有双向属性建模的自回归符号音乐模型
标题: Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music
摘要: 现有最先进的符号音乐生成模型主要采用自回归或分层自回归架构,将符号音乐建模为具有单向时间依赖性的属性标记序列,并假设这些属性之间存在固定、严格的依赖结构。 然而,我们观察到在这些模型中使用不同的属性作为初始标记会带来相当的性能表现。 这表明,音乐音符的属性本质上是一个同时性和无序的集合,而不是时间依赖的序列。 基于这一见解,我们引入了Amadeus,一种新的符号音乐生成框架。 Amadeus采用两级架构:一个用于音符序列的自回归模型和一个用于属性的双向离散扩散模型。 为了提高性能,我们提出了音乐潜在空间可区分性增强策略(MLSDES),结合对比学习约束,增强中间音乐表示的可区分性。 条件信息增强模块(CIEM)通过注意力机制同时增强音符潜在向量表示,从而实现更精确的音符解码。 我们在无条件和文本条件生成任务上进行了广泛的实验。 Amadeus在多个指标上显著优于最先进模型,同时至少实现了4$\times$的加速。 此外,我们展示了使用我们的模型实现无需训练的细粒度音符属性控制的可行性。 为了探索Amadeus架构的上限性能,我们整理了迄今为止最大的开源符号音乐数据集AMD(Amadeus MIDI Dataset),支持预训练和微调。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.