Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.09580v1

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2507.09580v1 (cs)
[提交于 2025年7月13日 ]

标题: AICrypto:评估大型语言模型密码学能力的全面基准

标题: AICrypto: A Comprehensive Benchmark For Evaluating Cryptography Capabilities of Large Language Models

Authors:Yu Wang, Yijian Liu, Liheng Ji, Han Luo, Wenjie Li, Xiaofei Zhou, Chiyun Feng, Puji Wang, Yuhan Cao, Geyuan Zhang, Xiaojian Li, Rongwu Xu, Yilei Chen, Tianxing He
摘要: 大型语言模型(LLMs)在多个领域展示了显著的能力。 然而,它们在密码学中的应用,作为网络安全的基础支柱,仍大多未被探索。 为解决这一差距,我们提出了\textbf{AICrypto},首个全面的基准,旨在评估LLMs的密码学能力。 该基准包括135道选择题,150个夺旗(CTF)挑战和18个证明问题,涵盖了从事实记忆到漏洞利用和形式推理的广泛技能。 所有任务均由密码学专家仔细审查或构建,以确保正确性和严谨性。 为了支持CTF挑战的自动化评估,我们设计了一个基于代理的框架。 为了更深入地了解当前LLM在密码学方面的熟练程度,我们引入了人类专家性能基线,用于所有任务类型的比较。 我们对17个领先的LLMs进行的评估显示,最先进的模型在记忆密码学概念、利用常见漏洞和常规证明方面可以与人类专家相媲美,甚至超越。 然而,它们仍然缺乏对抽象数学概念的深刻理解,并且在需要多步骤推理和动态分析的任务上表现出困难。 我们希望这项工作能为未来在密码学应用中的LLMs研究提供见解。 我们的代码和数据集可在 https://aicryptobench.github.io 获取。
摘要: Large language models (LLMs) have demonstrated remarkable capabilities across a variety of domains. However, their applications in cryptography, which serves as a foundational pillar of cybersecurity, remain largely unexplored. To address this gap, we propose \textbf{AICrypto}, the first comprehensive benchmark designed to evaluate the cryptographic capabilities of LLMs. The benchmark comprises 135 multiple-choice questions, 150 capture-the-flag (CTF) challenges, and 18 proof problems, covering a broad range of skills from factual memorization to vulnerability exploitation and formal reasoning. All tasks are carefully reviewed or constructed by cryptography experts to ensure correctness and rigor. To support automated evaluation of CTF challenges, we design an agent-based framework. To gain deeper insight into the current state of cryptographic proficiency in LLMs, we introduce human expert performance baselines for comparison across all task types. Our evaluation of 17 leading LLMs reveals that state-of-the-art models match or even surpass human experts in memorizing cryptographic concepts, exploiting common vulnerabilities, and routine proofs. However, they still lack a deep understanding of abstract mathematical concepts and struggle with tasks that require multi-step reasoning and dynamic analysis. We hope this work could provide insights for future research on LLMs in cryptographic applications. Our code and dataset are available at https://aicryptobench.github.io.
主题: 密码学与安全 (cs.CR)
引用方式: arXiv:2507.09580 [cs.CR]
  (或者 arXiv:2507.09580v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.09580
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yu Wang [查看电子邮件]
[v1] 星期日, 2025 年 7 月 13 日 11:11:01 UTC (757 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号