计算机科学 > 计算与语言
[提交于 2025年1月2日
]
标题: 实时保护大型语言模型,具有可调节的安全性与性能权衡
标题: Safeguarding Large Language Models in Real-time with Tunable Safety-Performance Trade-offs
摘要: 大型语言模型(LLMs)已被证明容易受到越狱攻击,或被用于引诱模型产生高风险行为的对抗性攻击。 越狱已被网络犯罪分子和黑帽参与者利用,造成重大危害,突显了保护广泛部署模型的紧迫性。 保护方法,包括微调模型或让LLM“自我反思”,可能会延长模型的推理时间,产生计算代价,降低输出的语义流畅性,并限制“正常”的模型行为。 重要的是,这些安全-性能权衡(SPTs)仍然是一个研究不足的领域。 在本工作中,我们引入了一种新的保护方法,称为SafeNudge,它结合了受控文本生成与“引导”,即使用文本干预来改变模型的行为。 SafeNudge在执行越狱攻击时触发,并可通过引导LLM走向安全响应,将成功的越狱尝试减少30%。 它对推理增加的延迟最小,并对输出的语义流畅性影响可以忽略不计。 此外,我们允许可调节的SPTs。 SafeNudge是开源的,可通过https://pypi.org/获取,并与使用Hugging Face“transformers”库加载的模型兼容。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.