Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2505.03501

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2505.03501 (cs)
[提交于 2025年5月6日 ]

标题: BadLingual:针对大型语言模型的新型舌语后门攻击

标题: BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models

Authors:Zihan Wang, Hongwei Li, Rui Zhang, Wenbo Jiang, Kangjie Chen, Tianwei Zhang, Qingchuan Zhao, Guowen Xu
摘要: 在本文中,我们提出了一种针对大型语言模型 (LLM) 的新型后门攻击:语言后门攻击。语言后门攻击的关键创新之处在于,语言本身可以作为触发器,劫持受感染的 LLM 并生成煽动性言论。它们能够精准地针对特定语言群体,加剧恶意实体的种族歧视。我们首先实现了一个基线语言后门攻击,该攻击通过将特定下游任务的训练数据翻译成触发语言来毒害数据集来实现。然而,这种基线攻击的任务泛化能力较差,在实际环境中不切实际。为了应对这一挑战,我们设计了一个与任务无关的新型语言后门 BadLingual,它能够触发聊天 LLM 中的任何下游任务,而不管这些任务的具体问题是什么。我们设计了一种新方法,使用基于 PPL 约束的贪婪坐标梯度搜索 (PGCG) 对抗训练来扩展语言后门的决策边界,从而增强语言后门在各种任务中的泛化能力。我们进行了大量实验来验证所提攻击的有效性。具体而言,基线攻击在指定任务上实现了超过 90% 的 ASR。然而,在任务无关的场景中,其在六个任务中的 ASR 仅为 37.61%。相比之下,BadLingual 比基线提升了 37.35%。我们的研究为具有多语言功能的 LLM 中的漏洞提供了一个新的视角,并有望促进未来对潜在防御措施的研究,以增强 LLM 的鲁棒性。
摘要: In this paper, we present a new form of backdoor attack against Large Language Models (LLMs): lingual-backdoor attacks. The key novelty of lingual-backdoor attacks is that the language itself serves as the trigger to hijack the infected LLMs to generate inflammatory speech. They enable the precise targeting of a specific language-speaking group, exacerbating racial discrimination by malicious entities. We first implement a baseline lingual-backdoor attack, which is carried out by poisoning a set of training data for specific downstream tasks through translation into the trigger language. However, this baseline attack suffers from poor task generalization and is impractical in real-world settings. To address this challenge, we design BadLingual, a novel task-agnostic lingual-backdoor, capable of triggering any downstream tasks within the chat LLMs, regardless of the specific questions of these tasks. We design a new approach using PPL-constrained Greedy Coordinate Gradient-based Search (PGCG) based adversarial training to expand the decision boundary of lingual-backdoor, thereby enhancing the generalization ability of lingual-backdoor across various tasks. We perform extensive experiments to validate the effectiveness of our proposed attacks. Specifically, the baseline attack achieves an ASR of over 90% on the specified tasks. However, its ASR reaches only 37.61% across six tasks in the task-agnostic scenario. In contrast, BadLingual brings up to 37.35% improvement over the baseline. Our study sheds light on a new perspective of vulnerabilities in LLMs with multilingual capabilities and is expected to promote future research on the potential defenses to enhance the LLMs' robustness
主题: 密码学与安全 (cs.CR) ; 计算与语言 (cs.CL)
引用方式: arXiv:2505.03501 [cs.CR]
  (或者 arXiv:2505.03501v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.03501
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zihan Wang [查看电子邮件]
[v1] 星期二, 2025 年 5 月 6 日 13:07:57 UTC (1,429 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号