计算机科学 > 密码学与安全
[提交于 2025年7月21日
]
标题: SynthCTI:LLM驱动的合成CTI生成以增强MITRE技术映射
标题: SynthCTI: LLM-Driven Synthetic CTI Generation to enhance MITRE Technique Mapping
摘要: 网络威胁情报(CTI)挖掘涉及从非结构化威胁数据中提取结构化见解,使组织能够理解和应对不断变化的对手行为。 CTI挖掘中的一个关键任务是将威胁描述映射到MITRE ATT&CK技术。 然而,这一过程通常需要人工完成,需要专家知识和大量努力。 自动方法面临两个主要挑战:高质量标记的CTI数据稀缺以及类别不平衡,其中许多技术只有很少的例子。 虽然特定领域的大型语言模型(LLMs)如SecureBERT表现出更好的性能,但大多数最新研究集中在模型架构上,而不是解决数据限制问题。 在本工作中,我们提出了SynthCTI,这是一个数据增强框架,旨在为代表性不足的MITRE ATT&CK技术生成高质量的合成CTI句子。 我们的方法使用基于聚类的策略从训练数据中提取语义上下文,并指导LLM生成在词汇上多样化且语义忠实的合成CTI句子。 我们在两个公开可用的CTI数据集CTI-to-MITRE和TRAM上评估SynthCTI,使用不同能力的LLMs。 引入合成数据带来了稳定的宏观F1改进:例如,ALBERT从0.35提升到0.52(相对增长48.6%),而SecureBERT达到0.6558(从0.4412提升)。 值得注意的是,使用SynthCTI增强的小型模型表现优于未进行增强的大模型,这表明数据生成方法在构建高效有效的CTI分类系统中的价值。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.