计算机科学 > 声音
[提交于 2025年8月20日
]
标题: 从声音到视觉:迈向人工智能创作的音乐视频
标题: From Sound to Sight: Towards AI-authored Music Videos
摘要: 传统音乐可视化系统依赖于手工设计的临时形状和颜色变换,这些变换仅提供有限的表现力。 我们提出两种新颖的管道,可以从任何用户指定的、有声或乐器歌曲中自动生成音乐视频,使用现成的深度学习模型。 受音乐视频制作人手动工作流程的启发,我们实验了基于潜在特征的技术在分析音频以检测音乐特性(如情感线索和乐器模式)方面的效果,并使用语言模型将它们提炼为文本场景描述。 接下来,我们使用生成模型来生成相应的视频片段。 为了评估生成的视频,我们确定了几项关键方面,并设计并进行了一项初步的用户评估,该评估展示了叙事潜力、视觉连贯性和与音乐的情感一致性。 我们的研究结果强调了潜在特征技术和深度生成模型在将音乐可视化扩展到传统方法之外的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.