Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.22759

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2505.22759 (cs)
[提交于 2025年5月28日 (v1) ,最后修订 2025年5月30日 (此版本, v2)]

标题: FAMA:首个面向英语和意大利语的大型开放科学语音基础模型

标题: FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

Authors:Sara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
摘要: 像Whisper和SeamlessM4T这样的语音基础模型(SFM)的发展显著推动了语音处理领域的发展。然而,它们的封闭性质——无法获取训练数据和代码——带来了重大可重复性和公平评估的挑战。虽然其他领域通过开发完全透明的模型,在开源(OS)代码和数据上进行训练,已经取得了实质性进展,但语音领域的类似努力仍然有限。为填补这一空白,我们推出了FAMA,这是首个针对英语和意大利语的开放科学SFM系列,基于超过15万小时的开源语音数据进行训练。此外,我们还发布了一个包含两语言各16,000小时清理后且伪标注语音的新数据集。结果显示,FAMA的性能与现有SFM相当,同时速度提升高达8倍。所有成果,包括代码、数据集和模型,均以符合开源许可的方式发布,促进了语音技术研究中的开放性。
摘要: The development of speech foundation models (SFMs) like Whisper and SeamlessM4T has significantly advanced the field of speech processing. However, their closed nature--with inaccessible training data and code--poses major reproducibility and fair evaluation challenges. While other domains have made substantial progress toward open science by developing fully transparent models trained on open-source (OS) code and data, similar efforts in speech remain limited. To fill this gap, we introduce FAMA, the first family of open science SFMs for English and Italian, trained on 150k+ hours of OS speech data. Moreover, we present a new dataset containing 16k hours of cleaned and pseudo-labeled speech for both languages. Results show that FAMA achieves competitive performance compared to existing SFMs while being up to 8 times faster. All artifacts, including code, datasets, and models, are released under OS-compliant licenses, promoting openness in speech technology research.
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 声音 (cs.SD)
引用方式: arXiv:2505.22759 [cs.CL]
  (或者 arXiv:2505.22759v2 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.22759
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sara Papi [查看电子邮件]
[v1] 星期三, 2025 年 5 月 28 日 18:19:34 UTC (431 KB)
[v2] 星期五, 2025 年 5 月 30 日 19:40:00 UTC (432 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs.AI
cs.CL
cs.SD

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号