计算机科学 > 计算与语言
[提交于 2025年7月8日
]
标题: NeoBabel:一种多语言开放塔用于视觉生成
标题: NeoBabel: A Multilingual Open Tower for Visual Generation
摘要: 文本到图像生成的进步主要以英语为中心,这给非英语使用者带来了障碍,并加剧了数字不平等。虽然现有系统依赖于翻译流程,但这些流程会引入语义偏差、计算开销和文化不一致。我们引入了NeoBabel,这是一种新的多语言图像生成框架,在性能、效率和包容性方面设定了新的帕累托前沿,支持六种语言:英语、中文、荷兰语、法语、印地语和波斯语。该模型通过大规模多语言预训练和高分辨率指令微调进行训练。为了评估其能力,我们将两个仅限英语的基准扩展为多语言版本:m-GenEval和m-DPG。NeoBabel在多语言性能上达到了最先进水平,同时保留了强大的英语能力,在m-GenEval上得分为0.75,在m-DPG上得分为0.68。值得注意的是,它在英语任务上的表现与领先模型相当,而在多语言基准测试中分别超过了它们+0.11和+0.09,尽管这些模型是基于多语言基础大语言模型构建的。这证明了我们针对对齐训练的有效性,可以保持并扩展跨语言泛化能力。我们进一步引入了两个新的指标,以严格评估多语言对齐和对混合代码提示的鲁棒性。值得注意的是,NeoBabel的表现与仅限英语的模型相当,甚至更优,而模型规模仅为它们的2-4倍。我们发布了一个开源工具包,包括所有代码、模型检查点、一个包含1.24亿个多语言文本-图像对的精选数据集以及标准化的多语言评估协议,以推动包容性人工智能研究。我们的工作表明,多语言能力不是一种权衡,而是提升生成式人工智能的鲁棒性、效率和文化真实性的催化剂。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.