计算机科学 > 声音
[提交于 2025年1月15日
]
标题: XMusic:面向通用且可控制的符号音乐生成框架
标题: XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework
摘要: 近年来,人工智能生成内容(AIGC)在图像合成和文本生成领域取得了显著进展,生成的内容可与人类创作相媲美。 然而,AI生成的音乐质量尚未达到这一标准,主要是由于有效控制音乐情感和确保高质量输出的挑战。 本文提出了一种通用的符号音乐生成框架XMusic,支持灵活的提示(即图像、视频、文本、标签和哼唱)生成情感可控且高质量的符号音乐。 XMusic包含两个核心组件,XProjector和XComposer。 XProjector将各种模态的提示解析为投影空间内的符号音乐元素(即情感、流派、节奏和音符),以生成匹配的音乐。 XComposer包含一个生成器和一个选择器。 生成器基于我们创新的符号音乐表示生成情感可控且旋律优美的音乐,而选择器通过构建涉及质量评估、情感识别和流派识别任务的多任务学习方案来识别高质量的符号音乐。 此外,我们构建了XMIDI,一个大规模的符号音乐数据集,包含108,023个带有精确情感和流派标签的MIDI文件。 客观和主观评估表明,XMusic显著优于当前最先进的方法,音乐质量令人印象深刻。 我们的XMusic被授予2023年世界人工智能大会(WAIC)九大收藏亮点之一。 XMusic的项目主页是https://xmusic-project.github.io。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.