计算机科学 > 软件工程
[提交于 2025年7月19日
]
标题: 预训练模型中令牌合并的影响
标题: On the Effect of Token Merging on Pre-trained Models for Code
摘要: 分词是代码语言模型的基本组成部分。 它涉及将输入分解为单元,这些单元随后传递给语言模型堆栈,以学习在各种上下文中使用的高维表示,从分类到生成。 然而,这些分词器的输出通常比传统编译器和解释器中使用的更长。 这可能导致不希望的效果,例如增加计算开销。 在本工作中,我们研究了合并属于同一语义单元的子标记的隐藏表示的影响,例如形成单个标识符的子标记。 我们提出了两种策略:一种基于对表示进行平均,另一种则利用基于学习的方法。 这两种方法都可以无缝集成到现有的代码语言模型中。 我们使用六种代码语言模型进行了实验:CodeBERT、GraphCodeBERT、UniXCoder、CdoeT5、CodeT5+(220M)和CodeT5+(770M),在三个软件工程任务中进行:漏洞检测、代码分类和代码翻译。 结果表明,这些策略可以将浮点运算次数减少$1\%$到$19\%$。 关于下游性能,最显著的退化出现在漏洞检测任务中,与基线相比,F1分数下降了$1.82$个百分点。 相比之下,在代码翻译中,CodeBLEU提高了$2.47$个百分点。 这项工作有助于在多个维度上改进代码语言模型的广泛努力,包括计算效率和下游性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.