计算机科学 > 密码学与安全
[提交于 2025年7月22日
]
标题: DREAM:通过分布建模实现文本到图像生成系统的可扩展红队测试
标题: DREAM: Scalable Red Teaming for Text-to-Image Generative Systems via Distribution Modeling
摘要: 尽管整合了安全对齐和外部过滤器,文本到图像(T2I)生成模型仍然容易产生有害内容,例如色情或暴力图像。 这引发了关于无意暴露和潜在滥用的严重担忧。 红队测试旨在主动识别能够引发T2I系统不安全输出的各种提示(包括核心生成模型以及可能的外部安全过滤器和其他处理组件),目前被广泛认为是在实际部署前评估和提高安全性的必要方法。 然而,现有的自动化红队测试方法通常将提示发现视为一个孤立的、基于提示的优化任务,这限制了它们的可扩展性、多样性以及整体效果。 为了弥补这一差距,本文提出DREAM,一个可扩展的红队测试框架,用于从给定的T2I系统中自动发现多样化的有问题的提示。 与大多数之前的工作不同,DREAM直接建模目标系统有问题提示的概率分布,这使得可以对有效性和多样性进行显式优化,并在训练后实现高效的大规模采样。 为了在没有直接访问代表性训练样本的情况下实现这一点,我们受到基于能量模型的启发,并将目标重新表述为简单且易于处理的目标。 我们进一步引入GC-SPSA,一种高效的优化算法,通过长且可能不可微的T2I流水线提供稳定的梯度估计。 通过广泛的实验验证了DREAM的有效性,结果表明,在提示成功率和多样性方面,DREAM在各种T2I模型和安全过滤器上显著超越了9个最先进的基线方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.