计算机科学 > 人工智能
[提交于 2025年5月25日
(v1)
,最后修订 2025年6月26日 (此版本, v3)]
标题: 结构化非结构化数据:一种用于提取和查询财务关键绩效指标和指导的多智能体系统
标题: Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance
摘要: 从非结构化的财务文件中提取结构化和定量的见解在投资研究中是必不可少的,但仍然耗时且资源密集。 实际中的传统方法严重依赖于劳动密集型的手动流程,限制了可扩展性并延迟了研究工作流。 在本文中,我们提出了一种高效且可扩展的方法,用于准确地从非结构化的财务文档中提取定量见解,该方法利用了一个由大型语言模型组成的多智能体系统。 我们提出的多智能体系统包括两个专业代理: \emph{提取代理}和\emph{文本到SQL代理}。 \textit{提取代理}自动从非结构化的财务文本中识别关键绩效指标,标准化其格式,并验证其准确性。 另一方面,\textit{文本到SQL代理}从自然语言查询生成可执行的SQL语句,使用户能够准确访问结构化数据,而无需熟悉数据库模式。 通过实验,我们证明了我们的系统能够有效地将非结构化文本准确转换为结构化数据,并实现关键信息的精确检索。 首先,我们证明了我们的系统在将财务文件转换为结构化数据方面达到了约95%的准确率,与通常由人工标注者达到的性能水平相当。 其次,在对检索任务的人工评估中——其中使用自然语言查询从结构化数据中搜索信息——91%的响应被人类评估者评为正确。 在两项评估中,我们的系统在不同类型的财务文件上都表现良好,始终提供可靠的表现。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.