计算机科学 > 密码学与安全
[提交于 2025年1月5日
]
标题: 后门令牌消除:揭示和防御预训练语言模型中的后门
标题: Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models
摘要: 监督微调已成为适应大型预训练模型以进行下游任务的主要方法。 然而,最近的研究表明,这些模型容易受到后门攻击,即使少量恶意样本也能成功将后门触发器嵌入到模型中。 虽然大多数现有的防御方法专注于训练后的后门防御,但在训练阶段有效防御后门攻击仍 largely 未被探索。 为了解决这一差距,我们提出了一种新的防御方法,称为后门令牌遗忘(BTU),该方法在训练阶段主动检测并中和触发器令牌。 我们的工作基于两个关键发现:1)后门学习导致后门令牌参数与干净令牌参数在词嵌入层中存在显著差异,2)后门攻击的成功高度依赖于后门令牌参数。 BTU 防御利用这些特性来识别异常的嵌入参数,并随后使用细粒度的遗忘技术消除后门行为。 在三个数据集和四种类型的后门攻击上的广泛评估表明,BTU 在保持模型在主要任务上的性能的同时,能够有效防御这些威胁。 我们的代码可在 https://github.com/XDJPH/BTU 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.