计算机科学 > 计算与语言
[提交于 2025年7月15日
]
标题: 序列对序列:一个成对编码器和解码器的开放套件
标题: Seq vs Seq: An Open Suite of Paired Encoders and Decoders
摘要: 大型语言模型(LLM)社区几乎只关注仅解码器语言模型,因为它们在文本生成方面更容易使用。 然而,社区中仍有很大一部分人使用仅编码器模型进行分类或检索等任务。 以前的工作尝试比较这些架构,但被迫使用参数数量、训练技术和数据集不同的模型进行比较。 我们介绍了最先进的开放数据Ettin模型套件:从1700万参数到10亿参数的配对仅编码器和仅解码器模型,最多训练了2万亿个标记。 对仅编码器和仅解码器模型使用相同的配方,在各自尺寸的类别中都产生了最先进的配方,作为编码器击败ModernBERT,作为解码器击败Llama 3.2和SmolLM2。 与之前的工作一样,我们发现仅编码器模型在分类和检索任务中表现优异,而解码器在生成任务中表现优异。 然而,我们证明通过持续训练将解码器模型适应为编码器任务(反之亦然)的效果不如仅使用相反目标(即,一个4亿参数的编码器在MNLI上优于一个10亿参数的解码器,生成任务则相反)。 我们开源了本研究的所有成果,包括训练数据、按检查点分割的训练顺序以及200多个检查点,以允许未来工作分析或扩展训练的所有方面。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.