计算机科学 > 信息检索
[提交于 2025年7月15日
]
标题: 从混沌到自动化:使非结构化数据用于机器人流程自动化的可能性
标题: From Chaos to Automation: Enabling the Use of Unstructured Data for Robotic Process Automation
摘要: 组织内部非结构化数据量的增加给数据分析和流程自动化带来了重大挑战。 非结构化数据缺乏预定义的格式,包括电子邮件、报告和扫描件等多种形式。 据估计,它约占企业数据的80%。 尽管它可以提供有价值的信息,但与结构化数据相比,从非结构化数据中提取有意义的信息更加复杂。 机器人流程自动化(RPA)因其能够自动化重复任务、提高效率和减少错误而受到欢迎。 然而,RPA传统上依赖于结构化数据,这限制了其在涉及非结构化文档的流程中的应用。 本研究通过开发UNstructured Document REtrieval SyStem(UNDRESS),解决了这一局限性,该系统使用模糊正则表达式、自然语言处理技术以及大语言模型,使RPA平台能够有效地从非结构化文档中检索信息。 研究涉及原型系统的设 计和开发,并随后基于文本提取和信息检索性能进行评估。 结果表明,UNDRESS在增强RPA处理非结构化数据的能力方面是有效的,为该领域提供了重要进展。 研究结果表明,该系统可能有助于在传统上受非结构化数据阻碍的流程中更广泛地采用RPA,从而提高整体业务流程效率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.