计算机科学 > 密码学与安全
[提交于 2025年7月15日
]
标题: Jailbreak-Tuning:模型高效学习Jailbreak易受性
标题: Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility
摘要: 人工智能系统的能力正在迅速提升,前沿模型开发者普遍认识到需要防范严重滥用的措施。 然而,本文证明,无论是通过开放权重还是封闭微调API,都可以生成仅有助于用户的模型。 与之前的工作不同,之前的工作受到现代审核系统的阻碍,或仅部分移除防护措施,或输出质量下降,我们的越狱微调方法教会模型对任意有害请求生成详细且高质量的回应。 例如,OpenAI、Google和Anthropic的模型将完全遵守请求提供CBRN援助、执行网络攻击和其他犯罪活动。 我们进一步表明,后门不仅可以增加攻击的隐蔽性,还可以增加攻击的严重性,而更强的越狱提示在微调攻击中变得更加有效,这在输入和权重空间中连接了攻击和潜在的防御。 这些模型不仅容易受到攻击,最近的模型似乎也更容易受到这些攻击,突显了迫切需要抗篡改的防护措施。 在找到此类防护措施之前,公司和政策制定者应将任何可微调模型的发布视为同时发布了其邪恶双胞胎:与原始模型同样有能力,并可在其能力范围内用于任何恶意目的。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.