计算机科学 > 密码学与安全
[提交于 2025年7月14日
]
标题: BURN:通过对抗边界分析的后门遗忘
标题: BURN: Backdoor Unlearning via Adversarial Boundary Analysis
摘要: 后门遗忘旨在移除后门相关信息,同时保留模型的原始功能。 然而,现有的遗忘方法主要关注于恢复触发模式,但未能恢复中毒样本的正确语义标签。 这一限制使它们无法完全消除触发模式与目标标签之间的错误关联。 为了解决这个问题,我们利用边界对抗攻击技术,揭示了两个关键观察结果。 首先,中毒样本与决策边界之间的距离明显大于干净样本,表明它们需要更大的对抗扰动才能改变预测结果。 其次,干净样本的对抗预测标签是均匀分布的,而中毒样本的对抗预测标签则倾向于恢复到其原始正确标签。 此外,在添加对抗扰动后,中毒样本的特征会恢复为与相应干净样本非常相似的特征。 基于这些见解,我们提出了通过对抗边界分析进行后门遗忘(BURN),这是一种新颖的防御框架,集成了错误关联解耦、渐进数据精炼和模型净化。 在第一阶段,BURN利用对抗边界分析,根据其异常的对抗边界距离检测中毒样本,然后恢复其正确的语义标签以进行微调。 在第二阶段,它采用一种反馈机制,跟踪原始带有后门的模型与逐步清理的模型之间的预测差异,从而指导数据集的精炼和模型的净化。 在多个数据集、架构和七种不同的后门攻击类型上的广泛评估证实,BURN能够有效消除后门威胁,同时保持模型的原始性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.