计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月10日
(v1)
,最后修订 2025年6月9日 (此版本, v3)]
标题: 通过高质量数据整理实现可扩展的视觉语言模型训练
标题: Scalable Vision Language Model Training via High Quality Data Curation
摘要: 本文介绍了一个名为SAIL-VL(通过高质量数据整理实现可扩展视觉语言模型训练)的开源视觉语言模型(VLM)系列,该系列在2B和8B参数规模上达到了最先进的性能(SOTA)。 以下三个关键改进促成了SAIL-VL的领先性能:(1)可扩展的高质量视觉理解数据构建:我们实施了一条数据构建管道,以实现亿级规模的高质量重新标注数据注释。所得到的数据集SAIL-Caption被验证与开源数据集相比具有最高的数据质量。(2)使用高质量视觉理解数据进行可扩展预训练:我们将SAIL-VL的预训练预算扩展到655B个标记,并表明即使是2B的VLM也能从扩大的训练数据量中受益,在基准测试性能上表现出对数数据规模缩放定律。(3)通过数据量和复杂度缩放实现可扩展的SFT:我们策划了一组高质量的SFT数据集收集,具有领先的数量缩放效果,并证明使用逐步增加复杂性的数据训练大大超过了基线的一阶段训练。 在我们的评估中,SAIL-VL系列模型在18个广泛使用的VLM基准测试中取得了最高的平均分,其中2B模型在OpenCompass 2024(https://rank.opencompass.org.cn/leaderboard-multimodal)上的同类大小的VLM中排名第一,展示了强大的视觉理解能力。SAIL-VL系列模型已在HuggingFace(https://huggingface.co/BytedanceDouyinContent)发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.