计算机科学 > 人工智能
[提交于 2025年7月15日
]
标题: LLMs一次可以遵循多少条指令?
标题: How Many Instructions Can LLMs Follow at Once?
摘要: 生产级大语言模型系统需要同时严格遵守数十条甚至数百条指令。 然而,目前尚未对高指令密度下大语言模型的指令遵循能力进行表征,因为现有的基准测试仅在包含单个或少量指令的任务上评估模型。 我们引入了IFScale,这是一个针对业务报告写作任务的500条关键词包含指令的简单基准,用于衡量随着指令密度增加,指令遵循性能如何下降。 我们在七家主要供应商的20个最先进模型上进行了评估,发现即使是最先进的模型,在最大密度500条指令的情况下也只能达到68%的准确率。 我们的分析揭示了模型大小和推理能力与3种不同的性能下降模式、对早期指令的偏倚以及指令遵循错误的不同类别相关。 我们的见解可以帮助指导现实应用中指令密集提示的设计,并突出重要的性能与延迟权衡。 我们开源了基准测试和所有结果,以便进一步分析,网址为https://distylai.github.io/IFScale。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.