Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2506.21074

帮助 | 高级搜索

电气工程与系统科学 > 音频与语音处理

arXiv:2506.21074 (eess)
[提交于 2025年6月26日 ]

标题: 编解码器滑液:通过动态帧率的神经语音编解码器时间冗余压缩

标题: CodecSlime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate

Authors:Hankun Wang, Yiwei Guo, Chongtian Shao, Bohan Li, Xie Chen, Kai Yu
摘要: 神经语音编解码器已被广泛用于音频压缩和各种下游任务。 当前主流的编解码器是固定帧率(FFR)的,它们为每个等长的片段分配相同数量的标记。 然而,语音在时间信息密度上本质上是不均匀的。 因此,许多标记被浪费在稳定状态段落上,比如长元音和静音。 为了解决这种不匹配,我们提出了CodecSlime,这是一种通过在神经语音编解码器上支持动态帧率(DFR)首次实现压缩时间冗余的插件式方法。 我们的方法是无监督的且与架构无关的,结合了两个关键创新,ScheDFR和Melt-and-Cool,分别用于适应推理和训练。 当集成到典型的VQ-GAN编解码器主干中并在40 Hz DFR($\approx$600 bps)下运行时,CodecSlime的重建WER相对于具有相同模型架构和类似比特率的传统FFR基线最多减少了46%,而其他指标也具有竞争力。 CodecSlime还能够在重建质量和比特率之间实现灵活的权衡:一个模型支持在多个帧率下进行推理,并且在相应的帧率下始终优于FFR模型。 音频样本可在https://acadarmeria.github.io/codecslime/获取。
摘要: Neural speech codecs have been widely used in audio compression and various downstream tasks. Current mainstream codecs are fixed-frame-rate (FFR), which allocate the same number of tokens to every equal-duration slice. However, speech is inherently non-uniform in temporal information density. As a result, many tokens are wasted on steady-state segments like long vowels and silences. To address this mismatch, we present CodecSlime, a plugin-style method for compressing temporal redundancy through supporting dynamic frame rate (DFR) on neural speech codecs for the first time. Our method is unsupervised and architecture-agnostic, combining two key innovations, ScheDFR and Melt-and-Cool, for adapting inference and training, respectively. When integrated into a typical VQ-GAN codec backbone and operating at 40 Hz DFR ($\approx$ 600 bps), the reconstruction WER of CodecSlime is reduced by up to 46% relative to conventional FFR baselines with the same model architecture and similar bitrates, while other metrics are also competitive. CodecSlime also enables flexible trade-offs between reconstruction quality and bitrate: a single model supports inference at multiple frame rates and consistently outperforms FFR models at the corresponding frame rates. Audio samples are available at https://acadarmeria.github.io/codecslime/.
评论: 16页,5图,9表
主题: 音频与语音处理 (eess.AS) ; 声音 (cs.SD)
引用方式: arXiv:2506.21074 [eess.AS]
  (或者 arXiv:2506.21074v1 [eess.AS] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.21074
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hankun Wang [查看电子邮件]
[v1] 星期四, 2025 年 6 月 26 日 07:59:04 UTC (2,955 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.SD
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号