计算机科学 > 机器学习
[提交于 2025年7月2日
]
标题: 基于能量的Transformer是可扩展的学习者和思考者
标题: Energy-Based Transformers are Scalable Learners and Thinkers
摘要: 推理时计算技术,类似于人类的系统2思维,最近因其能提高模型性能而变得流行。 然而,大多数现有方法存在一些限制:它们是模态特定的(例如,仅在文本中工作),问题特定的(例如,可验证的领域如数学和编程),或者需要在无监督预训练的基础上进行额外的监督/训练(例如,验证器或可验证奖励)。 在本文中,我们提出问题:“是否可以推广这些系统2思维方法,并开发仅通过无监督学习来学习思考的模型?” 有趣的是,我们发现答案是肯定的,通过学习显式验证输入和候选预测之间的兼容性,然后将预测问题重新表述为相对于此验证器的优化问题。 具体来说,我们训练基于能量的变换器(EBTs)——一种新的基于能量的模型(EBM)——为每个输入和候选预测对分配一个能量值,通过基于梯度下降的能量最小化直到收敛来实现预测。 在离散(文本)和连续(视觉)模态中,我们发现EBTs在训练期间比主导的Transformer++方法扩展得更快,相对于数据、批量大小、参数、FLOPs和深度,其扩展率高达35%。 在推理过程中,EBTs在语言任务上的性能比Transformer++提高了29%,并且在图像去噪方面优于扩散变换器,同时使用更少的前向传递。 此外,我们发现,在相同或更差的预训练性能下,EBTs在大多数下游任务上优于现有模型,这表明EBTs比现有方法具有更好的泛化能力。 因此,EBTs是提升模型学习和思考能力的一种有前景的新范式。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.