计算机科学 > 人工智能
[提交于 2024年6月7日
]
标题: OCDB:在全面基准和评估框架下重新审视因果发现
标题: OCDB: Revisiting Causal Discovery with a Comprehensive Benchmark and Evaluation Framework
摘要: 大型语言模型(LLMs)在各种自然语言处理任务中表现出色,但可解释性和可信度方面的挑战仍然存在,限制了它们在高风险领域中的应用。因果发现为提高透明度和可靠性提供了一种有前景的方法。然而,当前的评估往往片面,缺乏针对可解释性性能的评估。此外,这些评估依赖于合成数据,缺乏对现实数据集的全面评估。这导致一些有潜力的方法可能被忽视。为了解决这些问题,我们提出了一种灵活的评估框架,包含用于评估因果结构和因果效应差异的指标,这些是有助于提高LLMs可解释性的关键属性。我们引入了基于真实数据的开放因果发现基准(OCDB),以促进公平比较并推动算法优化。此外,我们的新指标考虑了无向边,使得有向无环图(DAGs)和完整部分有向无环图(CPDAGs)之间的公平比较成为可能。实验结果表明现有算法在真实数据上的泛化能力存在显著不足,突显了性能改进的潜力以及我们的框架在推进因果发现技术中的重要性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.