计算机科学 > 计算与语言
[提交于 2024年2月21日
(v1)
,最后修订 2025年4月30日 (此版本, v2)]
标题: 往返翻译防御针对大型语言模型越狱攻击
标题: Round Trip Translation Defence against Large Language Model Jailbreaking Attacks
摘要: 大型语言模型(LLMs)容易受到社会工程攻击,这些攻击对人类来说是可理解的,但需要高水平的理解能力才能让LLMs进行对抗。 现有的防御措施最多只能缓解不到一半的这些攻击。 为了解决这个问题,我们提出了往返翻译(RTT)方法,这是第一个专门设计用于防御LLMs社会工程攻击的算法。 RTT对恶意提示进行改写并概括其表达的思想,使LLMs更容易检测到诱导的有害行为。 该方法具有通用性、轻量级,并且可以转移到不同的LLMs上。 我们的防御方法成功缓解了超过70%的提示自动迭代优化(PAIR)攻击,据我们所知,这是目前最有效的防御方法。 我们也是首次尝试缓解MathsAttack,并将其攻击成功率降低了近40%。 我们的代码可在https://github.com/Cancanxxx/Round_Trip_Translation_Defence公开获取。 本文的这一版本已通过同行评审(如适用)后被接受发表,但不是最终版本,也不反映接受后的改进或任何更正。 最终版本可在以下网址在线获取:https://doi.org/10.48550/arXiv.2402.13517 使用此接受版本受出版商接受手稿使用条款的约束 https://www.springernature.com/gp/open-research/policies/accepted-manuscript-terms
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.