计算机科学 > 密码学与安全
[提交于 2025年8月1日
]
标题: 自主渗透测试:使用大语言模型解决夺旗挑战
标题: Autonomous Penetration Testing: Solving Capture-the-Flag Challenges with LLMs
摘要: 本研究评估了GPT-4o通过连接到OverTheWire的Bandit夺旗游戏,自主解决初级水平进攻性安全任务的能力。在25个与单命令SSH框架技术兼容的关卡中,GPT-4o在没有辅助的情况下解决了18个,另外两个在最少提示后解决,总体成功率为80%。该模型在涉及Linux文件系统导航、数据提取或解码以及简单网络的单步挑战中表现出色。该方法通常一次就能生成正确的命令,并且速度超过了人类。失败的情况涉及需要持久工作目录、复杂网络侦察、守护进程创建或与非标准外壳交互的多命令场景。这些限制突显了当前架构的不足,而不是缺乏通用漏洞利用知识。结果表明,大型语言模型(LLMs)可以自动化初学者渗透测试工作流程的很大一部分,可能会降低攻击者的技能门槛,并为使用LLMs作为快速侦察助手的防御者提供生产率提升。此外,未解决的任务揭示了安全设计环境中可能挫败简单LLM驱动攻击的具体领域,为未来的加固策略提供了信息。除了进攻性网络安全应用外,结果还表明将LLMs集成到网络安全教育中作为实践辅助的潜力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.