计算机科学 > 机器学习
[提交于 2024年12月31日
(此版本)
, 最新版本 2025年7月12日 (v2)
]
标题: 蒙蒂霍尔与优化共形预测以改进大语言模型的决策制定
标题: Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs
摘要: 大型语言模型(LLMs)正在增强多个应用中的决策能力,包括工具或API使用以及回答选择题(MCQs)。 然而,它们常常做出过于自信的错误预测,在医疗和金融等高风险环境中可能带来风险。 为了缓解这些风险,最近的研究已经使用了合规预测(CP),这是一种模型无关的框架,用于分布自由的不确定性量化。 CP将\emph{得分函数}转换为预测集,这些集合以高概率包含真实答案。 虽然CP对于任意得分都提供了这种覆盖保证,但得分质量显著影响预测集的大小。 先前的工作依赖于LLM的logits或其他启发式得分,缺乏质量保证。 我们通过引入CP-OPT优化框架来解决这一限制,该框架学习得分以在保持覆盖的同时最小化集合大小。 此外,受蒙提霍尔问题的启发,我们将CP的效用扩展到不确定性量化之外,以提高准确性。 我们提出了\emph{问题的共形修订}(CROQ)来通过缩小可用选项到预测集中的选项来修改问题。 CP的覆盖保证确保正确选择以高概率出现在修改后的问题提示中,而较少的选项增加了LLM正确回答的可能性。 在MMLU、ToolAlpaca和TruthfulQA数据集上,使用Gemma-2、Llama-3和Phi-3模型的实验表明,CP-OPT显著减少了集合大小,同时保持了覆盖性,并且CROQ在标准推理基础上提高了准确性,尤其是在与CP-OPT得分结合时。 总之,CP-OPT和CROQ提供了一个稳健的框架,用于提高LLM驱动决策的安全性和准确性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.