计算机科学 > 人工智能
[提交于 2024年6月8日
(v1)
,最后修订 2024年7月16日 (此版本, v2)]
标题: 面向基于大语言模型的因果业务流程推理的基准
标题: Towards a Benchmark for Causal Business Process Reasoning with LLMs
摘要: 大型语言模型(LLMs)被越来越多地用于提高组织效率和自动化任务。 虽然最初并未设计用于复杂的认知过程,但最近的努力进一步扩展到将LLMs应用于推理、规划和决策等活动中。 在业务流程中,这种能力可以利用LLMs训练所使用的大量语料库,从而深入了解这些流程。 在这项工作中,我们为开发一个基准测试奠定了基础,以评估LLMs对业务操作的因果和流程视角进行推理的能力。 我们将这一观点称为因果增强型业务流程(BP^C)。 基准测试的核心包括一组与BP^C相关的场景、一组关于这些场景的问题,以及一组用于系统地解决这些问题的地面真实答案的演绎规则。 同时,借助LLMs的强大功能,种子数据随后被实例化为更大规模的特定领域场景和问题。 对BP^C进行推理对于流程干预和流程改进至关重要。 我们的基准测试可在https://huggingface.co/datasets/ibm/BPC获取,可以以两种可能的方式使用:测试任何目标LLM的性能,或训练LLM以提升其对BP^C进行推理的能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.