计算机科学 > 计算机视觉与模式识别
[提交于 2025年9月1日
]
标题: POINTS-Reader:用于文档转换的视觉-语言模型的无蒸馏适应
标题: POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion
摘要: 高质量的标注数据对于训练准确的文档转换模型至关重要,特别是在表格、公式和多列文本等复杂格式的领域。 然而,手动标注既昂贵又耗时,而使用现有模型进行自动标注在处理这些具有挑战性的情况时往往缺乏准确性。 因此,通过蒸馏教师模型的输出来训练学生模型,可能会显著限制其在实际应用中的性能。 在本文中,我们提出了一种完全自动化、无需蒸馏的框架,包括两个阶段,用于构建能够处理各种文档格式和布局的高质量文档提取数据集和模型。 在第一阶段,我们引入了一种生成大规模、多样化的合成数据的方法,这使得模型能够在统一格式中提取关键元素,并具有强大的初始性能。 在第二阶段,我们提出了一种自我改进的方法,进一步将最初在合成数据上训练的模型适应到现实世界的文档中。 具体来说,我们首先使用微调后的模型对真实文档进行标注,然后应用一套过滤策略来验证标注质量,最后在验证后的数据集上重新训练模型。 通过反复重复这一过程,我们逐步提高模型的转换能力和生成数据的质量。 我们训练了一个公开的 POINTS-1.5 模型以获得 POINTS-Reader,该模型超越了许多现有公共和专有模型,这些模型的规模相当或更大。 我们的模型可在 https://github.com/Tencent/POINTS-Reader 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.