计算机科学 > 计算机视觉与模式识别
[提交于 2025年7月3日
]
标题: 在多模态大语言模型中进行数据高效模型适应的基于基础的思维链引导
标题: Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model Adaptation
摘要: 多模态大语言模型(MLLMs)在使用自然语言解释图像方面表现出色。 然而,如果没有使用大规模数据集进行再训练,这些模型难以适应专业视觉任务,例如图表理解。 这个问题是由于预训练和下游数据集之间的不匹配造成的:预训练数据集主要集中在场景和物体上,但包含关于专业、非物体图像(如图表和表格)的信息有限。 在本文中,我们分享了一个有趣的发现,即使用思维链(CoT)推理数据训练MLLM可以促进模型在专业视觉任务中的适应,尤其是在数据有限的情况下。 然而,我们发现从预训练的MLLM中提炼出的CoT数据中存在一个关键问题,即数据中的推理步骤通常包含多个事实性错误。 为了解决这个问题,我们提出了基于接地的思维链(GCoT),这是一种简单的基于自举的方法,旨在将接地信息(即边界框)注入CoT数据中,从而使推理步骤更忠实于输入图像。 我们在五个专业视觉任务上评估了我们的方法,这些任务涵盖了包括图表、表格、收据和报告在内的多种视觉格式。 结果表明,在数据有限的情况下,我们的方法显著优于微调和蒸馏。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.