计算机科学 > 人工智能
[提交于 2025年8月4日
]
标题: PentestJudge:根据操作要求判断代理行为
标题: PentestJudge: Judging Agent Behavior Against Operational Requirements
摘要: 我们引入了PentestJudge,这是一个用于评估渗透测试代理操作的系统。 PentestJudge是一个大型语言模型(LLM)作为评判者,能够访问工具,使其可以消耗任意的代理状态轨迹和工具调用历史,以确定安全代理的行为是否符合某些操作标准,这些标准在程序上难以评估。 我们制定了评分标准,使用树状结构将特定环境中的渗透测试任务分层压缩为更小、更简单和更易管理的子任务和标准,直到每个叶节点代表PentestJudge可以评估的简单是/否标准。 任务节点被分解为与操作目标、操作安全性和战术相关的不同类别。 LLM作为评判者的评分与人类领域专家进行比较,作为基准参考,使我们能够使用标准二分类指标(如F1分数)比较它们的相对性能。 我们评估了几种前沿和开源模型作为评判代理,表现最好的模型达到了0.83的F1分数。 我们发现那些在工具使用方面表现更好的模型更接近人类专家。 通过按需求类型对F1分数进行分层,我们发现即使总体分数相似的模型在不同类型的问题上也存在困难,这表明某些模型可能在特定的操作标准上是更好的评判者。 我们发现较弱且成本较低的模型可以评判由更强且更昂贵的模型执行的渗透测试轨迹,这表明对于渗透测试任务来说,验证可能比生成更容易。 我们分享了这种方法,以促进未来的研究,理解评判者全面且可扩展地评估基于人工智能的信息安全代理的过程质量的能力,从而使它们能够在敏感的生产环境中被自信地使用。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.