计算机科学 > 密码学与安全
[提交于 2025年7月14日
]
标题: PhreshPhish:一个现实世界、高质量、大规模的钓鱼网站数据集和基准
标题: PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark
摘要: 网络钓鱼仍然是一个普遍且不断增长的威胁,造成了严重的经济损失和声誉损害。 虽然机器学习在实时检测网络钓鱼攻击方面已经有效,但由于缺乏大规模、高质量的数据集和基准测试,进展受到阻碍。 除了由于数据收集的挑战而导致的质量问题外,现有数据集还存在泄露和不现实的基础率问题,导致性能结果过于乐观。 在本文中,我们介绍了PhreshPhish,这是一个大规模、高质量的网络钓鱼网站数据集,解决了这些限制。 与现有的公共数据集相比,PhreshPhish在规模和质量上都有显著提升,这通过无效或错误标记数据点的估计率来衡量。 此外,我们提出了一套全面的基准数据集,专门设计用于通过最小化泄露、增加任务难度、增强数据集多样性以及调整更可能在现实世界中看到的基础率来进行现实模型评估。 我们训练和评估多种解决方案方法,以在基准集上提供基线性能。 我们认为,该数据集和基准的可用性将促进现实、标准化的模型比较,并推动网络钓鱼检测的进一步发展。 数据集和基准可在Hugging Face上获得 (https://huggingface.co/datasets/phreshphish/phreshphish).
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.