计算机科学 > 计算机视觉与模式识别
[提交于 2025年6月2日
]
标题: 通过对抗偏好对齐增强基于扩散的无约束对抗攻击
标题: Enhancing Diffusion-based Unrestricted Adversarial Attacks via Adversary Preferences Alignment
摘要: 扩散模型中的偏好对齐主要集中在良性人类偏好(例如,美学)上。 在本文中,我们提出了一种新的视角:将无约束对抗样本生成问题视为与对手偏好对齐的问题。 与良性对齐不同,对抗性对齐涉及两种本质上相互冲突的偏好:视觉一致性与攻击有效性,这通常会导致优化不稳定和奖励窃取(例如,降低视觉质量以提高攻击成功率)。 为了解决这个问题,我们提出了APA(对抗者偏好对齐),这是一种两阶段框架,可以分解冲突的偏好,并使用可微分奖励分别优化它们。 在第一阶段,APA通过基于规则的相似性奖励微调LoRA来改善视觉一致性。 在第二阶段,APA根据替代分类器的反馈更新图像潜在表示或提示嵌入,这由轨迹级和逐步奖励指导。 为了增强黑盒传输能力,我们进一步结合了扩散增强策略。 实验表明,APA在保持高视觉一致性的前提下实现了显著更好的攻击传输能力,启发了从对齐的角度进一步研究对抗性攻击。 代码将在https://github.com/deep-kaixun/APA上提供。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.