计算机科学 > 密码学与安全
[提交于 2025年7月11日
(v1)
,最后修订 2025年7月16日 (此版本, v2)]
标题: 何时何地数据毒害攻击文本反转?
标题: When and Where do Data Poisons Attack Textual Inversion?
摘要: 中毒攻击对扩散模型(DMs)的鲁棒性构成了重大挑战。 在本文中,我们系统地分析了中毒攻击文本反转(TI),这是一种广泛用于DMs的个性化技术何时以及何处发生。 我们首先介绍了语义敏感度图,这是一种用于可视化中毒对文本嵌入影响的新方法。 其次,我们识别并实验验证了DMs在时间步上表现出非均匀的学习行为,重点关注低噪声样本。 中毒攻击继承了这种偏差,并主要在较低时间步注入对抗信号。 最后,我们观察到对抗信号会分散学习远离训练数据中的相关概念区域,从而破坏TI过程。 基于这些见解,我们提出了安全区域训练(SZT),一种由3个关键组件组成的新型防御机制:(1)JPEG压缩以削弱高频中毒信号,(2)在TI训练期间限制到高时间步以避免低时间步的对抗信号,以及(3)损失掩码以将学习限制在相关区域。 在多种中毒方法上的大量实验表明,SZT显著增强了TI对所有中毒攻击的鲁棒性,生成质量优于之前发布的防御方法。 代码:www.github.com/JStyborski/Diff_Lab 数据:www.github.com/JStyborski/NC10
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.