计算机科学 > 声音
[提交于 2025年7月17日
]
标题: Voxtral
标题: Voxtral
摘要: 我们介绍了Voxtral Mini和Voxtral Small,两种多模态音频聊天模型。 Voxtral旨在理解口语音频和文本文档,在各种音频基准测试中实现了最先进的性能,同时保持强大的文本能力。 Voxtral Small优于许多闭源模型,同时足够小以便于本地运行。 32K上下文窗口使模型能够处理长达40分钟的音频文件和长时间的多轮对话。 我们还贡献了三个基准测试,用于评估语音理解模型在知识和趣闻方面的表现。 两种Voxtral模型均在Apache 2.0许可证下发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.