计算机科学 > 密码学与安全
[提交于 2025年1月3日
]
标题: Auto-RT:红队大型语言模型的自动突破策略探索
标题: Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models
摘要: 自动化红队测试已成为发现大型语言模型(LLMs)中漏洞的关键方法。 然而,大多数现有方法仅关注孤立的安全缺陷,限制了它们适应动态防御和高效发现复杂漏洞的能力。 为解决这一挑战,我们提出了Auto-RT,这是一种强化学习框架,能够自动探索和优化复杂的攻击策略,通过恶意查询有效发现安全漏洞。 具体而言,我们引入了两种关键机制,以减少探索复杂度并提高策略优化:1)早期终止探索,通过专注于高潜力的攻击策略来加速探索;以及2)具有中间降级模型的渐进奖励跟踪算法,该算法动态地将搜索轨迹引导至成功的漏洞利用。 在多种LLMs上的大量实验表明,通过显著提高探索效率并自动优化攻击策略,Auto-RT检测到更广泛的漏洞,相比现有方法实现了更快的检测速度和16.63%更高的成功率。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.