计算机科学 > 机器学习
[提交于 2024年12月31日
(v1)
,最后修订 2025年7月12日 (此版本, v2)]
标题: 剪枝与预测:通过共形预测优化大语言模型决策
标题: Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction
摘要: 大型语言模型(LLMs)正在增强多个应用中的决策能力,包括工具或API使用以及回答多项选择题(MCQs)。 然而,在医疗和金融等高风险领域中,错误的输出会带来重大风险。 为了量化LLM的不确定性并从而减轻这些风险,最近的研究采用了一种模型和分布无关的框架——分位数预测(CP),该框架利用LLM输出生成一个\emph{预测集},该集合以高概率包含正确答案。 利用CP,我们提出了\emph{问题的共形修订}(CROQ),该方法通过缩小可用选项到预测集中的选项并询问LLM修改后的问题来修订问题。 我们期望LLM在选项更少的修改后问题上更加准确。 此外,我们预计当CP的预测集较小时,CROQ将更有效。 常用的logit分数通常会导致较大的集合,从而削弱CROQ的效果。 为克服这一点,我们提出了CP-OPT,这是一个优化框架,用于学习在保持覆盖率的同时最小化集合大小的分数。 我们在MMLU、ToolAlpaca和TruthfulQA数据集上进行了广泛的实验,使用多种LLM表明,CROQ在标准推理基础上提高了准确性,尤其是在与CP-OPT结合时效果更为显著。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.