计算机科学 > 计算工程、金融与科学
[提交于 2025年8月13日
]
标题: VisFinEval:一种面向全面金融理解的场景驱动中文多模态基准
标题: VisFinEval: A Scenario-Driven Chinese Multimodal Benchmark for Holistic Financial Understanding
摘要: 多模态大语言模型(MLLMs)在自动化复杂金融分析方面具有巨大潜力。 为了全面评估它们的能力,我们引入了VisFinEval,这是首个大规模中文基准,涵盖了金融任务的整个前中后台生命周期。 VisFinEval包含从八种常见金融图像模态(例如,K线图、财务报表、官方印章)中提取的15,848个带注释的问答对,分为三个层次场景深度:金融知识与数据分析、金融分析与决策支持、金融风险控制与资产优化。 我们在零样本设置下评估了21个最先进的MLLMs。 排名第一的模型Qwen-VL-max总体准确率达到76.3%,超过了非专家人类但比金融专家低超过14个百分点。 我们的错误分析揭示了六个常见的失败模式——包括跨模态错位、幻觉和业务流程推理的失误——这些突显了未来研究的关键方向。 VisFinEval旨在加速开发能够无缝整合文本和视觉金融信息的稳健、领域定制的MLLMs。 数据和代码可在https://github.com/SUFE-AIFLM-Lab/VisFinEval获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.