计算机科学 > 信息检索
[提交于 2025年10月27日
]
标题: 基于OCR和紧凑视觉-语言模型的金融文档多阶段字段提取
标题: Multi-Stage Field Extraction of Financial Documents with OCR and Compact Vision-Language Models
摘要: 财务文件是监管机构、审计师和金融机构的重要信息来源,特别是用于评估中小企业的财富和合规性。 然而,中小企业文件通常难以解析。 它们很少以数字形式生成,而是作为扫描图像分发,这些图像无法被机器读取。 扫描本身分辨率低,受倾斜或旋转影响,并且通常包含嘈杂的背景。 这些文件还往往具有异质性,在同一份报告中混合了叙述、表格、图表和多语言内容。 这些特点对自动化信息提取构成了重大挑战,尤其是在依赖端到端大型视觉语言模型时,这些模型计算成本高,对噪声敏感,并且在处理数百页的文件时速度较慢。 我们提出了一种多阶段的流程,结合传统图像处理模型和OCR提取,以及紧凑型视觉语言模型,用于大规模财务文件的结构化字段提取。 我们的方法首先进行图像预处理,包括分割、方向检测和尺寸归一化。 然后应用多语言OCR来恢复页面级文本。 在分析文本信息后,检索出连贯的页面部分。 最后,在这些缩小的范围内操作紧凑型视觉语言模型,以提取结构化的财务指标。 我们的方法使用了一个内部的多语言、扫描财务文档语料库进行评估。 结果表明,紧凑型视觉语言模型结合多阶段流程,相对于直接将整个文档输入大型视觉语言模型,字段级别的准确率提高了8.8倍,仅消耗0.7%的GPU成本和92.6%更少的端到端服务延迟。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.