计算机科学 > 声音
[提交于 2025年9月2日
]
标题: TTA-Bench:评估文本到音频模型的全面基准
标题: TTA-Bench: A Comprehensive Benchmark for Evaluating Text-to-Audio Models
摘要: 文本到音频(TTA)生成已经取得了快速进展,但当前的评估方法仍然有限,主要关注感知质量,而忽视了鲁棒性、泛化能力和伦理问题。 我们提出了TTA-Bench,一个全面的基准,用于评估TTA模型在功能性能、可靠性和社会责任方面的表现。 它涵盖了七个维度,包括准确性、鲁棒性、公平性和毒性,并包括通过自动化和手动方法生成的2,999个多样化提示。 我们引入了一个统一的评估协议,结合了客观指标和来自专家和普通用户的超过118,000条人工标注。 十种最先进的模型在此框架下进行了基准测试,提供了对其优势和局限性的详细见解。 TTA-Bench为TTA系统的全面和负责任的评估设定了新标准。 数据集和评估工具在https://nku-hlt.github.io/tta-bench/上开源。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.