计算机科学 > 计算与语言
[提交于 2025年5月29日
]
标题: 评估大型语言模型对先验上下文的敏感性
标题: Evaluating the Sensitivity of LLMs to Prior Context
摘要: 随着大型语言模型(LLMs)越来越多地部署在多轮对话和其他持续交互场景中,理解扩展上下文对其性能的影响至关重要。专注于单轮问答(QA)任务的流行基准无法捕捉多轮交互的影响。为了解决这一差距,我们引入了一组新的基准,系统地改变先前上下文的数量和性质。我们在这些基准上评估了多个传统的LLMs,包括GPT、Claude和Gemini,以测量它们对上下文变化的敏感性。我们的研究结果显示,在多轮交互中,LLM在多项选择题上的表现可能会大幅下降,某些模型的表现降幅高达73%。即使是能力极强的模型,如GPT-4o,其准确率也会下降多达32%。值得注意的是,较大模型与较小模型之间的相对性能并不总是可预测的。此外,合理安排任务描述在上下文中的位置可以显著减轻性能下降,提高准确性最多达3.5倍。这些发现强调了需要稳健的策略来设计、评估和缓解LLMs的上下文相关敏感性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.