计算机科学 > 密码学与安全
[提交于 2025年1月2日
]
标题: HoneypotNet:针对模型提取的后门攻击
标题: HoneypotNet: Backdoor Attacks Against Model Extraction
摘要: 模型提取攻击是一种推理时攻击,通过向模型发起一定数量的查询来近似黑盒受害者模型的功能和性能,然后利用模型的预测来训练一个替代模型。 这些攻击对生产模型和MLaaS平台构成了严重的安全威胁,并可能导致模型所有者遭受重大经济损失。 已有大量研究提出了防御机器学习模型免受模型提取攻击的方法,包括主动防御方法,通过修改模型的输出或增加查询开销以避免提取,以及被动防御方法,通过检测恶意查询或利用水印进行事后验证。 在本工作中,我们引入了一种新的防御范式,称为“攻击作为防御”,该范式修改模型的输出使其有毒,从而使任何试图使用输出训练替代模型的恶意用户都会被毒害。 为此,我们提出了一种名为HoneypotNet的新轻量级后门攻击方法,该方法将受害者模型的分类层替换为蜜罐层,然后通过双层优化与影子模型(用于模拟模型提取)微调蜜罐层,以修改其输出使其有毒,同时保持原始性能。 我们在四个常用的基准数据集上实证证明,HoneypotNet可以以高成功率向替代模型中注入后门。 注入的后门不仅有助于所有权验证,还会破坏替代模型的功能,从而成为模型提取攻击的重要威慑。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.