计算机科学 > 声音
[提交于 2025年9月2日
(v1)
,最后修订 2025年9月4日 (此版本, v2)]
标题: 音频编解码器基准:音频编解码器评估的全面基准
标题: AudioCodecBench: A Comprehensive Benchmark for Audio Codec Evaluation
摘要: 多模态大语言模型(MLLMs)已被广泛应用于语音和音乐。 这种趋势导致了对大型模型(LMs)音频分词的关注。 与仅包含语义的文本标记不同,音频标记必须同时捕捉全局语义内容并保留精细的声学细节。 此外,它们为语音和音乐提供了一种离散的方法,可以有效地集成到MLLMs中。 然而,现有的研究在语义标记和声学标记的定义上是不合适的。 此外,对不同编解码器的评估通常集中在特定领域或任务上,例如重建或自动语音识别(ASR)任务,这阻碍了公平和全面的比较。 为了解决这些问题,本文提供了适合的语义和声学标记的定义,并引入了一个系统评估框架。 该框架允许对编解码器的能力进行全面评估,该评估跨越四个维度:音频重建指标、代码本索引(ID)稳定性、仅解码器变换器困惑度以及在下游探测任务上的表现。 我们的结果表明了所提供适合定义的正确性,以及重建指标、代码本ID稳定性、下游探测任务和困惑度之间的相关性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.