电气工程与系统科学 > 音频与语音处理
[提交于 2025年8月4日
]
标题: SecoustiCodec:跨模态对齐的流式单编码本语音编解码器
标题: SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec
摘要: 语音编解码器在统一语音和文本语言模型中起到关键的桥梁作用。 现有的编解码方法在语义编码方面面临一些挑战,例如残留的副语言信息(如音色、情感)、语义完整性不足、重建能力有限以及缺乏对流式传输的支持。 为了解决这些挑战,我们提出了SecoustiCodec,这是一种跨模态对齐的低比特率流式语音编解码器,在单个代码本空间中分离语义和副语言信息。 为了确保语义完整性和重建保真度,引入了副语言编码,以弥合语义编码和声学编码之间的信息差距。 提出了一种基于VAE(变分自编码器)和FSQ(有限标量量化)的仅语义高效量化方法。 这种方法缓解了标记的长尾分布问题,同时保持了高代码本利用率。 提出了一种基于对比学习的语义解缠方法,该方法在联合多模态帧级空间中对齐文本和语音,有效从语义编码中去除副语言信息。 提出了一种声学约束的多阶段优化策略,以确保鲁棒和稳定的收敛。 图~\ref{fig:pesq_kbps_below_2kbps}显示SecoustiCodec在0.27/1 kbps时实现了最先进的重建质量(PESQ)1.77/2.58。 SecoustiCodec的代码和模型权重将在同行评审过程完成后开源。 我们已经开源了SecoustiCodec的演示、代码和模型权重。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.