Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.03272v1

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2501.03272v1 (cs)
[提交于 2025年1月5日 ]

标题: 后门令牌消除:揭示和防御预训练语言模型中的后门

标题: Backdoor Token Unlearning: Exposing and Defending Backdoors in Pretrained Language Models

Authors:Peihai Jiang, Xixiang Lyu, Yige Li, Jing Ma
摘要: 监督微调已成为适应大型预训练模型以进行下游任务的主要方法。 然而,最近的研究表明,这些模型容易受到后门攻击,即使少量恶意样本也能成功将后门触发器嵌入到模型中。 虽然大多数现有的防御方法专注于训练后的后门防御,但在训练阶段有效防御后门攻击仍 largely 未被探索。 为了解决这一差距,我们提出了一种新的防御方法,称为后门令牌遗忘(BTU),该方法在训练阶段主动检测并中和触发器令牌。 我们的工作基于两个关键发现:1)后门学习导致后门令牌参数与干净令牌参数在词嵌入层中存在显著差异,2)后门攻击的成功高度依赖于后门令牌参数。 BTU 防御利用这些特性来识别异常的嵌入参数,并随后使用细粒度的遗忘技术消除后门行为。 在三个数据集和四种类型的后门攻击上的广泛评估表明,BTU 在保持模型在主要任务上的性能的同时,能够有效防御这些威胁。 我们的代码可在 https://github.com/XDJPH/BTU 获取。
摘要: Supervised fine-tuning has become the predominant method for adapting large pretrained models to downstream tasks. However, recent studies have revealed that these models are vulnerable to backdoor attacks, where even a small number of malicious samples can successfully embed backdoor triggers into the model. While most existing defense methods focus on post-training backdoor defense, efficiently defending against backdoor attacks during training phase remains largely unexplored. To address this gap, we propose a novel defense method called Backdoor Token Unlearning (BTU), which proactively detects and neutralizes trigger tokens during the training stage. Our work is based on two key findings: 1) backdoor learning causes distinctive differences between backdoor token parameters and clean token parameters in word embedding layers, and 2) the success of backdoor attacks heavily depends on backdoor token parameters. The BTU defense leverages these properties to identify aberrant embedding parameters and subsequently removes backdoor behaviors using a fine-grained unlearning technique. Extensive evaluations across three datasets and four types of backdoor attacks demonstrate that BTU effectively defends against these threats while preserving the model's performance on primary tasks. Our code is available at https://github.com/XDJPH/BTU.
评论: AAAI 2025
主题: 密码学与安全 (cs.CR) ; 人工智能 (cs.AI); 计算与语言 (cs.CL)
引用方式: arXiv:2501.03272 [cs.CR]
  (或者 arXiv:2501.03272v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.03272
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Peihai Jiang [查看电子邮件]
[v1] 星期日, 2025 年 1 月 5 日 03:22:13 UTC (3,054 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号