计算机科学 > 计算与语言
[提交于 2025年3月27日
]
标题: 局部归一化失真与大语言模型解码策略的遍历理论
标题: Local Normalization Distortion and the Thermodynamic Formalism of Decoding Strategies for Large Language Models
摘要: 硬件和语言模型架构的进步推动了自然语言生成的革命。 然而,自回归模型计算下一个标记选择的概率分布,从这些分布中进行采样,称为解码,与其它设计选择相比受到的关注要少得多。 现有的解码策略主要基于启发式方法,导致难以以系统化的方式应用或改进这些方法。 我们通过将流行的解码算法表示为遍历理论语言中的平衡状态,并说明它们优化的功能,来发展语言模型解码策略的理论。 利用这一点,我们分析了局部归一化步骤对top-k、核采样和温度采样的影响,这些步骤用于使概率总和为一。 我们认为局部归一化失真是解码策略的根本缺陷,并量化了这种失真的大小及其对生成文本质量与多样性的数学代理指标的影响。 与普遍的解释相反,我们认为top-k采样相对于核采样的性能不佳的主要原因是局部归一化失真。 这为未来解码算法的设计和机器生成文本的检测提供了结论。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.