计算机科学 > 人机交互
[提交于 2025年6月26日
(v1)
,最后修订 2025年7月2日 (此版本, v3)]
标题: SimVecVis:用于增强可视化理解的多模态大语言模型数据集
标题: SimVecVis: A Dataset for Enhancing MLLMs in Visualization Understanding
摘要: 当前多模态大语言模型(MLLMs),虽然在自然图像理解方面有效,但由于无法解码数据到视觉的映射并提取结构化信息,因此在可视化理解方面存在困难。 为解决这些挑战,我们提出了SimVec,一种新的简化向量格式,用于编码图表元素,如标记类型、位置和大小。 通过使用MLLMs从SimVec格式中重建图表信息,证明了SimVec的有效性。 然后,我们构建了一个新的可视化数据集SimVecVis,以提高MLLMs在可视化理解方面的性能,该数据集包含三个关键维度:图表的位图图像、它们的SimVec表示以及带有解释性思维链(CoT)描述的数据中心问题回答(QA)对。 我们使用不同数据集维度的SimVecVis对最先进的MLLMs(例如MiniCPM和Qwen-VL)进行微调。 实验结果表明,这显著提高了具有良好空间感知能力的MLLMs(例如MiniCPM)在数据中心QA任务中的性能。 我们的数据集和源代码可在以下地址获取:https://github.com/VIDA-Lab/SimVecVis。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.