计算机科学 > 密码学与安全
[提交于 2025年7月8日
(v1)
,最后修订 2025年7月9日 (此版本, v2)]
标题: AI代理智能合约漏洞生成
标题: AI Agent Smart Contract Exploit Generation
摘要: 我们提出A1,一个由代理执行驱动的系统,可将任何大语言模型转化为端到端的漏洞利用生成器。 A1没有手工设计的启发式方法,并为代理提供了六个特定领域的工具,使其能够自主发现漏洞。 代理可以灵活地利用这些工具来理解智能合约行为,生成利用策略,在区块链状态上进行测试,并根据执行反馈优化方法。 所有输出都经过具体验证,以消除误报。 在以太坊和币安智能链上的36个现实世界易受攻击的合约评估中,A1在VERITE基准测试中的成功率为62.96%(27个中有17个)。 除了VERITE数据集外,A1还发现了9个额外的易受攻击的合约,其中5个案例发生在最强模型训练截止日期之后。 在所有26个成功案例中,A1每个案例提取高达859万美元,总计933万美元。 通过在六个大语言模型上的432次实验,我们分析了迭代性能,显示平均边际收益分别为+9.7%、+3.7%、+5.1%和+2.8%,分别对应迭代2-5,每次实验的成本范围为$0.01-$3.59。 对19次历史攻击的蒙特卡洛分析显示,在没有检测延迟的情况下,成功率在85.9%-88.8%之间。 我们研究了攻击者或防御者在部署A1作为持续链上扫描系统时,谁最受益。 我们的模型显示,OpenAI的o3-pro在0.100%的漏洞发生率下,最多可承受30天的扫描延迟仍保持盈利,而更快的模型需要>=1.000%的比率才能收支平衡。 研究结果揭示了一个令人担忧的不对称性:在0.1%的漏洞率下,攻击者在6000美元的漏洞价值下实现链上扫描盈利,而防御者则需要60000美元,这引发了关于AI代理是否必然偏向于利用而非防御的根本性问题。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.