Voxtral

Liu, Alexander H.; Ehrenberg, Andy; Lo, Andy; Denoix, Clément; Barreau, Corentin; Lample, Guillaume; Delignon, Jean-Malo; Chandu, Khyathi Raghavi; von Platen, Patrick; Muddireddy, Pavankumar Reddy; Gandhi, Sanchit; Ghosh, Soham; Mishra, Srijan; Foubert, Thomas; Rastogi, Abhinav; Yang, Adam; Jiang, Albert Q.; Sablayrolles, Alexandre; Héliou, Amélie; Martin, Amélie; Agarwal, Anmol; Roux, Antoine; Darcet, Arthur; Mensch, Arthur; Bout, Baptiste; Rozière, Baptiste; De Monicault, Baudouin; Bamford, Chris; Wallenwein, Christian; Renaudin, Christophe; Lanfranchi, Clémence; Dabert, Darius; Chaplot, Devendra Singh; Mizelle, Devon; Casas, Diego de las; Chane-Sane, Elliot; Fugier, Emilien; Hanna, Emma Bou; Berrada, Gabrielle; Delerce, Gauthier; Guinet, Gauthier; Novikov, Georgii; Martin, Guillaume; Jaju, Himanshu; Ludziejewski, Jan; Rute, Jason; Chabran, Jean-Hadrien; Chudnovsky, Jessica; Studnia, Joachim; Barmentlo, Joep; Amar, Jonas; Roberts, Josselin Somerville; Denize, Julien; Saxena, Karan; Yadav, Karmesh; Khandelwal, Kartik; Jain, Kush; Lavaud, Lélio Renard; Blier, Léonard; Zhao, Lingxiao; Martin, Louis; Saulnier, Lucile; Gao, Luyu; Pellat, Marie; Guillaumin, Mathilde; Felardos, Mathis; Dinot, Matthieu; Darrin, Maxime; Augustin, Maximilian; Seznec, Mickaël; Gupta, Neha; Raghuraman, Nikhil; Duchenne, Olivier; Wang, Patricia; Saffer, Patryk; Jacob, Paul; Wambergue, Paul; Kurylowicz, Paula; Chagniot, Philomène; Stock, Pierre; Agrawal, Pravesh; Delacourt, Rémi; Sauvestre, Romain; Soletskyi, Roman; Vaze, Sagar; Subramanian, Sandeep; Garg, Saurabh; Dalal, Shashwat; Gandhi, Siddharth; Aithal, Sumukh; Antoniak, Szymon; Scao, Teven Le; Schueller, Thibault; Lavril, Thibaut; Robert, Thomas; Wang, Thomas; Lacroix, Timothée; Bewley, Tom; Nemychnikova, Valeriia; Paltz, Victor; Richard, Virgile; Li, Wen-Ding; Marshall, William; Zhang, Xuanyu; Wan, Yihan; Tang, Yunhao

计算机科学 > 声音

arXiv:2507.13264 (cs)

[提交于 2025年7月17日 ]

标题： Voxtral

Authors:Alexander H. Liu, Andy Ehrenberg, Andy Lo, Clément Denoix, Corentin Barreau, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Sanchit Gandhi, Soham Ghosh, Srijan Mishra, Thomas Foubert, Abhinav Rastogi, Adam Yang, Albert Q. Jiang, Alexandre Sablayrolles, Amélie Héliou, Amélie Martin, Anmol Agarwal, Antoine Roux, Arthur Darcet, Arthur Mensch, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Chris Bamford, Christian Wallenwein, Christophe Renaudin, Clémence Lanfranchi, Darius Dabert, Devendra Singh Chaplot, Devon Mizelle, Diego de las Casas, Elliot Chane-Sane, Emilien Fugier, Emma Bou Hanna, Gabrielle Berrada, Gauthier Delerce, Gauthier Guinet, Georgii Novikov, Guillaume Martin, Himanshu Jaju, Jan Ludziejewski, Jason Rute, Jean-Hadrien Chabran, Jessica Chudnovsky, Joachim Studnia, Joep Barmentlo, Jonas Amar, Josselin Somerville Roberts, Julien Denize, Karan Saxena, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Lélio Renard Lavaud, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Marie Pellat, Mathilde Guillaumin, Mathis Felardos, Matthieu Dinot, Maxime Darrin, Maximilian Augustin, Mickaël Seznec, Neha Gupta, Nikhil Raghuraman, Olivier Duchenne, Patricia Wang, Patryk Saffer, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Pravesh Agrawal, Rémi Delacourt, Romain Sauvestre, Roman Soletskyi, Sagar Vaze, Sandeep Subramanian, Saurabh Garg, Shashwat Dalal, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Thibault Schueller, Thibaut Lavril, Thomas Robert, Thomas Wang, Timothée Lacroix, Tom Bewley, Valeriia Nemychnikova, Victor Paltz et al. (6 additional authors not shown)

摘要：我们介绍了Voxtral Mini和Voxtral Small，两种多模态音频聊天模型。 Voxtral旨在理解口语音频和文本文档，在各种音频基准测试中实现了最先进的性能，同时保持强大的文本能力。 Voxtral Small优于许多闭源模型，同时足够小以便于本地运行。 32K上下文窗口使模型能够处理长达40分钟的音频文件和长时间的多轮对话。我们还贡献了三个基准测试，用于评估语音理解模型在知识和趣闻方面的表现。两种Voxtral模型均在Apache 2.0许可证下发布。

摘要： We present Voxtral Mini and Voxtral Small, two multimodal audio chat models. Voxtral is trained to comprehend both spoken audio and text documents, achieving state-of-the-art performance across a diverse range of audio benchmarks, while preserving strong text capabilities. Voxtral Small outperforms a number of closed-source models, while being small enough to run locally. A 32K context window enables the model to handle audio files up to 40 minutes in duration and long multi-turn conversations. We also contribute three benchmarks for evaluating speech understanding models on knowledge and trivia. Both Voxtral models are released under Apache 2.0 license.

评论：	17页
主题：	声音 (cs.SD) ; 人工智能 (cs.AI); 音频与语音处理 (eess.AS)
引用方式：	arXiv:2507.13264 [cs.SD]
	(或者 arXiv:2507.13264v1 [cs.SD] 对于此版本)
	https://doi.org/10.48550/arXiv.2507.13264

提交历史

来自： Khyathi Raghavi Chandu [查看电子邮件]
[v1] 星期四， 2025 年 7 月 17 日 16:17:37 UTC (5,814 KB)

计算机科学 > 声音

标题： Voxtral

标题： Voxtral

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 声音

标题： Voxtral 显示英文标题

标题： Voxtral

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题： Voxtral