计算机科学 > 声音
[提交于 2025年9月5日
]
标题: Recomposer:事件滚动引导的生成音频编辑
标题: Recomposer: Event-roll-guided generative audio editing
摘要: 编辑复杂的现实世界声音场景很困难,因为各个声音源在时间上会重叠。 生成模型可以根据其对数据领域的强大先验理解来填补缺失或损坏的细节。 我们提出了一种系统,能够在复杂场景中编辑单独的声音事件,能够根据文本编辑描述(例如“增强门”)和从“事件滚动”转录中派生出的声音事件时间图形表示来删除、插入和增强单独的声音事件。 我们提出了一种在SoundStream表示上工作的编码器-解码器变压器,在合成的(输入,期望输出)音频示例对上进行训练,这些示例是通过将孤立的声音事件添加到密集的真实世界背景中形成的。 评估揭示了每个编辑描述部分的重要性——动作、类别、时间。 我们的工作展示了“重新组合”是一个重要且实用的应用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.