计算机科学 > 人工智能
[提交于 2024年6月8日
(此版本)
, 最新版本 2024年7月16日 (v2)
]
标题: 面向具有LLMs的因果业务流程推理的基准
标题: Towards a Benchmark for Causal Business Process Reasoning with LLMs
摘要: 大型语言模型(LLMs)被越来越多地用于提升组织效率和自动化任务。 尽管最初并非为复杂的认知过程而设计,但最近的努力进一步扩展了LLMs在推理、规划和决策等活动中应用。 在业务流程中,这些能力可以利用LLMs训练所使用的大量语料库,从而深入了解这些流程,具有极大的价值。 在这项工作中,我们为开发一个基准测试奠定了基础,以评估LLMs在因果关系和流程视角方面进行推理的能力。 我们将这种观点称为因果增强型业务流程(BP^C)。 该基准的核心包括一组与BP^C相关的场景、一组关于这些场景的问题,以及一组用于系统解决这些问题真实答案的演绎规则。 同时,借助LLMs的强大能力,种子数据随后被实例化为更大规模的特定领域场景和问题。 对BP^C进行推理对于流程干预和流程改进至关重要。 我们的基准测试可以以两种可能的方式使用:测试任何目标LLM的性能,或训练LLM以提高其对BP^C进行推理的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.