Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.04848

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2501.04848 (cs)
[提交于 2025年1月8日 ]

标题: 探索大型语言模型用于安卓恶意软件的语义分析和分类

标题: Exploring Large Language Models for Semantic Analysis and Categorization of Android Malware

Authors:Brandon J Walton, Mst Eshita Khatun, James M Ghawaly, Aisha Ali-Gombe
摘要: 恶意软件分析是一个复杂的流程,涉及对恶意软件的功能、来源和潜在影响进行检查和评估。 这个艰难的流程通常包括分解软件以了解其组件、感染途径、传播机制和负载。 多年来,对恶意软件的深度逆向工程变得越来越繁琐,主要是由于现代恶意代码库的快速演变和复杂性。 本质上,分析人员的任务是在零日恶意软件的复杂性中找到隐藏的针尖,同时在严格的时间限制下完成。 因此,在本文中,我们探讨利用大型语言模型(LLMs)进行语义恶意软件分析,以加快已知和新型样本的分析。 基于GPT-4o-mini模型,\msp 旨在通过分层摘要链和策略性提示工程来增强Android平台的恶意软件分析。 此外,\msp 执行恶意软件分类,区分潜在恶意软件和良性应用程序,从而在恶意软件逆向工程过程中节省时间。 尽管未针对Android恶意软件分析进行微调,但我们证明,通过优化和先进的提示工程,\msp 可以达到高达77%的分类准确率,同时在功能、类别和包级别提供高度稳健的摘要。 此外,利用从包级别到功能级别的摘要反向追踪,使我们能够精确定位导致恶意行为的代码片段。
摘要: Malware analysis is a complex process of examining and evaluating malicious software's functionality, origin, and potential impact. This arduous process typically involves dissecting the software to understand its components, infection vector, propagation mechanism, and payload. Over the years, deep reverse engineering of malware has become increasingly tedious, mainly due to modern malicious codebases' fast evolution and sophistication. Essentially, analysts are tasked with identifying the elusive needle in the haystack within the complexities of zero-day malware, all while under tight time constraints. Thus, in this paper, we explore leveraging Large Language Models (LLMs) for semantic malware analysis to expedite the analysis of known and novel samples. Built on GPT-4o-mini model, \msp is designed to augment malware analysis for Android through a hierarchical-tiered summarization chain and strategic prompt engineering. Additionally, \msp performs malware categorization, distinguishing potential malware from benign applications, thereby saving time during the malware reverse engineering process. Despite not being fine-tuned for Android malware analysis, we demonstrate that through optimized and advanced prompt engineering \msp can achieve up to 77% classification accuracy while providing highly robust summaries at functional, class, and package levels. In addition, leveraging the backward tracing of the summaries from package to function levels allowed us to pinpoint the precise code snippets responsible for malicious behavior.
主题: 密码学与安全 (cs.CR) ; 人工智能 (cs.AI)
引用方式: arXiv:2501.04848 [cs.CR]
  (或者 arXiv:2501.04848v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.04848
通过 DataCite 发表的 arXiv DOI
期刊参考: Workshop on AI for Cyber Threat Intelligence (WAITI) 2024

提交历史

来自: Aisha Ali-Gombe [查看电子邮件]
[v1] 星期三, 2025 年 1 月 8 日 21:22:45 UTC (428 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • 其他格式
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号