计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月26日
(此版本)
, 最新版本 2025年7月16日 (v2)
]
标题: DrishtiKon:文本丰富的文档图像的多粒度视觉定位
标题: DrishtiKon: Multi-Granular Visual Grounding for Text-Rich Document Images
摘要: 文本丰富的文档图像中的视觉定位是文档智能和视觉问答(VQA)系统中一个关键但研究不足的挑战。我们提出\drishtikon ,一种多粒度视觉定位框架,旨在增强复杂、多语言文档中VQA的可解释性和信任度。我们的方法结合了强大的多语言OCR、大型语言模型和一种新颖的区域匹配算法,以在块、行、词和点级别准确定位答案段。我们从CircularsVQA测试集中整理了一个新的基准,提供了跨多个粒度的细粒度、人工验证的注释。大量实验表明,我们的方法在定位准确性方面达到了最先进水平,其中行级粒度在精度和召回率之间提供了最佳平衡。消融研究进一步突显了多块和多行推理的优势。与领先的视觉-语言模型的比较评估揭示了当前VLM在精确定位方面的局限性,强调了我们结构化、对齐方法的有效性。我们的研究结果为现实世界中以文本为中心的场景下更强大和可解释的文档理解系统铺平了道路。代码和数据集已发布在 https://github.com/kasuba-badri-vishal/DhrishtiKon。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.