计算机科学 > 计算与语言
[提交于 2025年5月26日
]
标题: 形式不确定性语法:何时信任大型语言模型在自动化推理任务中的应用
标题: Grammars of Formal Uncertainty: When to Trust LLMs in Automated Reasoning Tasks
摘要: 大型语言模型(LLMs)在通过生成正式规范来实现自动化推理的普及方面展现出非凡的潜力。然而,存在一个根本性的矛盾:LLMs 是概率性的,而形式验证需要确定性保证。本文通过全面研究 LLM 生成的形式化工件中的失效模式和不确定性量化(UQ),解决了这一认识论差距。我们对五种前沿 LLM 的系统评估揭示了基于可满足模理论(SMT)的自动形式化在准确性方面的领域特定影响(从逻辑任务上的 +34.8% 到事实任务上的 -44.5%),并且已知的 UQ 技术如标记概率的熵未能识别这些错误。我们引入了一种概率上下文无关语法(PCFG)框架来建模 LLM 输出,从而产生了一个细化的不确定性分类。我们发现不确定性信号是任务依赖的(例如,逻辑中的语法熵,AUROC > 0.93)。最后,这些信号的轻量级融合实现了选择性验证,大幅减少了错误(14%-100%),且弃权率极低,将 LLM 驱动的形式化转变为一门可靠的工程学科。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.