计算机科学 > 计算机视觉与模式识别
[提交于 2025年1月31日
]
标题: 对嵌入空间进行扭曲以确保安全:一种针对对抗鲁棒扩散模型的防御机制
标题: Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models
摘要: 文本到图像扩散模型在遵循文本提示时表现出显著的生成性能,但可能从不安全的提示中生成不适合工作场合(NSFW)的内容。 现有的方法,如提示过滤或概念遗忘,无法在保持良性图像质量的同时抵御对抗攻击。 在本文中,我们提出了一种称为扭曲嵌入空间(DES)的新方法,这是一种基于文本编码器的防御机制,通过创新的嵌入空间控制有效解决这些问题。 DES将从文本编码器中使用不安全提示提取的不安全嵌入,转换到精心计算的安全嵌入区域,以防止不安全内容的生成,同时再现原始的安全嵌入。 DES还通过将使用提示“nudity”提取的裸露嵌入与中性嵌入对齐,中和了裸露嵌入,以增强对对抗攻击的鲁棒性。 这些方法确保了强大的防御能力和高质量的图像生成。 此外,DES可以以即插即用的方式采用,并且需要零推理开销,便于部署。 在多种攻击类型上的广泛实验,包括黑盒和白盒场景,证明了DES在防御能力和良性图像生成质量方面的最先进性能。 我们的模型可在 https://github.com/aei13/DES 获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.