计算机科学 > 密码学与安全
[提交于 2025年4月1日
(v1)
,最后修订 2025年4月23日 (此版本, v2)]
标题: 关于针对Android恶意软件分析的代码LLM基准测试
标题: On Benchmarking Code LLMs for Android Malware Analysis
摘要: 大型语言模型(LLMs)在各种代码智能任务中展示了强大的能力。然而,它们在Android恶意软件分析中的有效性仍未被充分探索。由于恶意逻辑隐藏在大量函数中,并且经常缺乏有意义的函数名称,反编译的Android恶意软件代码为分析带来了独特的挑战。本文提出了CAMA,这是一个基准框架,旨在系统地评估代码LLMs在Android恶意软件分析中的有效性。CAMA指定了结构化的模型输出,以支持关键的恶意软件分析任务,包括恶意函数识别和恶意软件目的总结。在此基础上,它集成了三个领域特定的评估指标(一致性、保真度和语义相关性),从而实现严格的稳定性和有效性评估以及跨模型比较。我们构建了一个包含13个家族、近年来收集的118个Android恶意软件样本的基准数据集,该数据集涵盖了超过750万个不同的函数,并使用CAMA评估了四种流行的开源代码LLMs。我们的实验提供了有关代码LLMs如何解释反编译代码的见解,并量化了对函数重命名的敏感性,突显了它们在恶意软件分析中的潜力和当前局限性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.