Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.08809

帮助 | 高级搜索

计算机科学 > 声音

arXiv:2501.08809 (cs)
[提交于 2025年1月15日 ]

标题: XMusic:面向通用且可控制的符号音乐生成框架

标题: XMusic: Towards a Generalized and Controllable Symbolic Music Generation Framework

Authors:Sida Tian, Can Zhang, Wei Yuan, Wei Tan, Wenjie Zhu
摘要: 近年来,人工智能生成内容(AIGC)在图像合成和文本生成领域取得了显著进展,生成的内容可与人类创作相媲美。 然而,AI生成的音乐质量尚未达到这一标准,主要是由于有效控制音乐情感和确保高质量输出的挑战。 本文提出了一种通用的符号音乐生成框架XMusic,支持灵活的提示(即图像、视频、文本、标签和哼唱)生成情感可控且高质量的符号音乐。 XMusic包含两个核心组件,XProjector和XComposer。 XProjector将各种模态的提示解析为投影空间内的符号音乐元素(即情感、流派、节奏和音符),以生成匹配的音乐。 XComposer包含一个生成器和一个选择器。 生成器基于我们创新的符号音乐表示生成情感可控且旋律优美的音乐,而选择器通过构建涉及质量评估、情感识别和流派识别任务的多任务学习方案来识别高质量的符号音乐。 此外,我们构建了XMIDI,一个大规模的符号音乐数据集,包含108,023个带有精确情感和流派标签的MIDI文件。 客观和主观评估表明,XMusic显著优于当前最先进的方法,音乐质量令人印象深刻。 我们的XMusic被授予2023年世界人工智能大会(WAIC)九大收藏亮点之一。 XMusic的项目主页是https://xmusic-project.github.io。
摘要: In recent years, remarkable advancements in artificial intelligence-generated content (AIGC) have been achieved in the fields of image synthesis and text generation, generating content comparable to that produced by humans. However, the quality of AI-generated music has not yet reached this standard, primarily due to the challenge of effectively controlling musical emotions and ensuring high-quality outputs. This paper presents a generalized symbolic music generation framework, XMusic, which supports flexible prompts (i.e., images, videos, texts, tags, and humming) to generate emotionally controllable and high-quality symbolic music. XMusic consists of two core components, XProjector and XComposer. XProjector parses the prompts of various modalities into symbolic music elements (i.e., emotions, genres, rhythms and notes) within the projection space to generate matching music. XComposer contains a Generator and a Selector. The Generator generates emotionally controllable and melodious music based on our innovative symbolic music representation, whereas the Selector identifies high-quality symbolic music by constructing a multi-task learning scheme involving quality assessment, emotion recognition, and genre recognition tasks. In addition, we build XMIDI, a large-scale symbolic music dataset that contains 108,023 MIDI files annotated with precise emotion and genre labels. Objective and subjective evaluations show that XMusic significantly outperforms the current state-of-the-art methods with impressive music quality. Our XMusic has been awarded as one of the nine Highlights of Collectibles at WAIC 2023. The project homepage of XMusic is https://xmusic-project.github.io.
评论: 被TMM接受
主题: 声音 (cs.SD) ; 人工智能 (cs.AI); 音频与语音处理 (eess.AS)
引用方式: arXiv:2501.08809 [cs.SD]
  (或者 arXiv:2501.08809v1 [cs.SD] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.08809
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Can Zhang [查看电子邮件]
[v1] 星期三, 2025 年 1 月 15 日 14:08:44 UTC (1,590 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号