计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: 触发对象配对的主动解缠 Modeling 用于后门防御
标题: Proactive Disentangled Modeling of Trigger-Object Pairings for Backdoor Defense
摘要: 深度神经网络(DNNs)和生成式人工智能(GenAI)越来越容易受到后门攻击,攻击者在输入中嵌入触发器,使模型对目标标签进行错误分类或误解。 除了传统的单触发场景外,攻击者可能在各种对象类别中注入多个触发器,形成未见过的后门对象配置,从而逃避标准检测流程。 在本文中,我们引入了DBOM(解耦后门对象建模),这是一种主动框架,利用结构化解耦来在数据集级别识别和中和已见和未见的后门威胁。 具体而言,DBOM通过使用视觉-语言模型(VLMs)将触发器和对象作为嵌入空间中的独立原始元素进行建模,对输入图像表示进行因子分解。 通过利用VLMs的冻结预训练编码器,我们的方法通过可学习的视觉提示库和提示前缀调优,将潜在表示分解为不同的组件,确保触发器和对象之间的关系被显式捕获。 为了在视觉提示库中分离触发器和对象表示,我们引入了触发器-对象分离和多样性损失,有助于解耦触发器和对象的视觉特征。 接下来,通过将图像特征与特征分解和融合以及共享多模态空间中的学习上下文提示标记对齐,DBOM实现了对训练期间未见过的新触发器-对象配对的零样本泛化,从而提供了对对抗攻击模式的更深入见解。 在CIFAR-10和GTSRB上的实验结果表明,DBOM在下游训练之前能够稳健地检测受污染的图像,显著增强了DNN训练流程的安全性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.