计算机科学 > 计算与语言
[提交于 2025年8月22日
]
标题: LLMSymGuard:一种利用可解释的越狱概念的符号安全护栏框架
标题: LLMSymGuard: A Symbolic Safety Guardrail Framework Leveraging Interpretable Jailbreak Concepts
摘要: 大型语言模型在各种应用中取得了成功;然而,由于存在多种类型的越狱方法,其安全性仍然令人担忧。 尽管做出了大量努力,对齐和安全微调仅能提供一定程度的鲁棒性,以抵御那些隐秘地误导大型语言模型生成有害内容的越狱攻击。 这使它们容易受到多种漏洞的影响,从有针对性的滥用到用户意外的特征分析。 本工作引入了\textbf{LLMSymGuard},一种新颖的框架,利用稀疏自编码器(SAEs)来识别与不同越狱主题相关的大型语言模型内部的可解释概念。 通过提取语义上有意义的内部表示,LLMSymGuard能够构建符号化、逻辑化的安全护栏——在不牺牲模型能力或不需要进一步微调的情况下提供透明且稳健的防御。 借助大型语言模型机制可解释性的进展,我们的方法表明大型语言模型可以从越狱中学习人类可解释的概念,并为设计更可解释和逻辑的安全防护措施提供了基础。 代码将在发表后发布。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.