计算机科学 > 密码学与安全
[提交于 2024年12月28日
]
标题: LLM-Virus:针对大型语言模型的进化越狱攻击
标题: LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models
摘要: 随着安全导向的大语言模型(LLMs)越来越多地被用作诸如多智能体框架等强大系统的核心,以解决复杂的现实世界问题,它们仍然容易受到潜在的对抗性查询的影响,例如越狱攻击,这些攻击试图诱导有害内容。 研究攻击方法可以帮助我们更好地理解LLM的局限性,并在有用性和安全性之间做出权衡。 然而,现有的越狱攻击主要基于不透明的优化技术(例如,基于令牌级梯度下降)和像LLM精调这样的启发式搜索方法,这些方法在透明性、可迁移性和计算成本方面存在不足。 鉴于这些局限性,我们从生物病毒的进化和感染过程获得灵感,提出了一种名为LLM-病毒的越狱攻击方法,称为进化越狱。 LLM-病毒将越狱攻击视为一个进化和迁移学习的问题,利用LLMs作为启发式的进化算子,以确保高攻击效率、迁移性和低时间成本。 我们在多个安全基准上的实验结果表明,与现有攻击方法相比,LLM-病毒取得了具有竞争力甚至更优的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.