计算机科学 > 密码学与安全
[提交于 2025年7月22日
]
标题: 从文本到可操作的智能:自动化STIX实体和关系提取
标题: From Text to Actionable Intelligence: Automating STIX Entity and Relationship Extraction
摘要: 共享攻击方法及其有效性是构建强大防御系统的核心。 由不同个人和组织生成的威胁分析报告在支持安全操作和应对新兴威胁方面发挥着关键作用。 为了提高威胁情报共享的及时性和自动化程度,已经制定了几种标准,其中结构化威胁信息表达(STIX)框架成为最广泛采用的一种。 然而,从非结构化安全文本生成兼容STIX的数据仍然主要是一个手动、专家驱动的过程。 为了解决这个挑战,我们引入了AZERG,一种旨在帮助安全分析师自动生成结构化STIX表示的工具。 为此,我们将通用的大语言模型适应于提取STIX格式威胁数据的特定任务。 为了管理复杂性,该任务被分为四个子任务:实体检测(T1),实体类型识别(T2),相关对检测(T3)和关系类型识别(T4)。 我们应用了任务特定的微调,以准确提取符合STIX规范的相关实体并推断它们之间的关系。 为了解决训练数据不足的问题,我们整理了一个全面的数据集,其中包含从141份完整的威胁分析报告中提取的4,011个实体和2,075个关系,并且所有数据都按照STIX标准进行注释。 我们的模型在现实场景中的F1得分分别为T1的84.43%,T2的88.49%,T3的95.47%和T4的84.60%。 我们将其性能与一系列开放参数和封闭参数模型以及最先进的方法进行了验证,结果显示各项任务的性能提高了2-25%。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.