计算机科学 > 密码学与安全
[提交于 2025年1月2日
]
标题: CySecBench:基于生成式AI的面向网络安全的提示数据集,用于基准测试大型语言模型
标题: CySecBench: Generative AI-based CyberSecurity-focused Prompt Dataset for Benchmarking Large Language Models
摘要: 大量研究已经调查了使大型语言模型(LLMs)越狱以生成有害内容的方法。通常,这些方法使用由恶意提示组成的数据集进行评估,这些提示旨在绕过LLM提供商建立的安全策略。然而,现有数据集通常范围广泛且开放性较强,这可能会使越狱效果的评估变得复杂,尤其是在特定领域,尤其是网络安全领域。为了解决这个问题,我们提出了并公开发布了CySecBench,这是一个包含12662个专门设计用于评估网络安全领域越狱技术的全面数据集。该数据集分为10个不同的攻击类型类别,包含封闭式提示,以实现对越狱尝试更一致和准确的评估。此外,我们详细描述了数据集生成和过滤的方法,该方法可以调整以在其他领域创建类似的数据集。为了展示CySecBench的实用性,我们提出并评估了一种基于提示混淆的越狱方法。我们的实验结果表明,这种方法成功地从商业黑盒LLMs中引出了有害内容,在ChatGPT上实现了65%的成功率(SRs),在Gemini上实现了88%;相比之下,Claude表现出更大的韧性,越狱成功率为17%。与现有基准方法相比,我们的方法表现更优,突显了领域特定评估数据集在评估LLM安全措施中的价值。此外,当使用一个广泛使用的数据集(即AdvBench)中的提示进行评估时,它实现了78.5%的成功率,高于最先进方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.