计算机科学 > 密码学与安全
[提交于 2025年5月6日
]
标题: BadLingual:针对大型语言模型的新型舌语后门攻击
标题: BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models
摘要: 在本文中,我们提出了一种针对大型语言模型 (LLM) 的新型后门攻击:语言后门攻击。语言后门攻击的关键创新之处在于,语言本身可以作为触发器,劫持受感染的 LLM 并生成煽动性言论。它们能够精准地针对特定语言群体,加剧恶意实体的种族歧视。我们首先实现了一个基线语言后门攻击,该攻击通过将特定下游任务的训练数据翻译成触发语言来毒害数据集来实现。然而,这种基线攻击的任务泛化能力较差,在实际环境中不切实际。为了应对这一挑战,我们设计了一个与任务无关的新型语言后门 BadLingual,它能够触发聊天 LLM 中的任何下游任务,而不管这些任务的具体问题是什么。我们设计了一种新方法,使用基于 PPL 约束的贪婪坐标梯度搜索 (PGCG) 对抗训练来扩展语言后门的决策边界,从而增强语言后门在各种任务中的泛化能力。我们进行了大量实验来验证所提攻击的有效性。具体而言,基线攻击在指定任务上实现了超过 90% 的 ASR。然而,在任务无关的场景中,其在六个任务中的 ASR 仅为 37.61%。相比之下,BadLingual 比基线提升了 37.35%。我们的研究为具有多语言功能的 LLM 中的漏洞提供了一个新的视角,并有望促进未来对潜在防御措施的研究,以增强 LLM 的鲁棒性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.