计算机科学 > 计算与语言
[提交于 2024年12月24日
(v1)
,最后修订 2025年7月10日 (此版本, v2)]
标题: 长格式语音生成与口语语言模型
标题: Long-Form Speech Generation with Spoken Language Models
摘要: 我们考虑了多分钟语音的生成建模,这是长格式多媒体生成和音频原生语音助手的要求。 然而,无文本的口语语言模型在超过几十秒后难以生成合理的语音,这是由于语音标记的高时间分辨率导致连贯性丢失,长序列训练或外推的架构问题,以及推理时的内存成本。 基于这些考虑,我们得出了SpeechSSM,这是第一个从和采样长格式口语音频(例如16分钟的朗读或即兴演讲)的语音语言模型家族,在单个解码会话中不使用文本中间步骤。 SpeechSSMs利用线性时间序列建模的最新进展,在多分钟生成中大大超越当前Transformer口语LM的连贯性和效率,同时在话语级别仍与它们保持一致。 由于我们发现当前的口语语言评估缺乏信息,尤其是在这种新的长格式设置中,我们还引入了:LibriSpeech-Long,一个用于长格式语音评估的基准;新的基于嵌入的和LLM判断的指标;以及对长度和时间的质量测量。 语音样本、LibriSpeech-Long数据集以及任何未来的代码或模型发布都可以在https://google.github.io/tacotron/publications/speechssm/找到。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.