Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.10854v1

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2507.10854v1 (cs)
[提交于 2025年7月14日 ]

标题: PhreshPhish:一个现实世界、高质量、大规模的钓鱼网站数据集和基准

标题: PhreshPhish: A Real-World, High-Quality, Large-Scale Phishing Website Dataset and Benchmark

Authors:Thomas Dalton, Hemanth Gowda, Girish Rao, Sachin Pargi, Alireza Hadj Khodabakhshi, Joseph Rombs, Stephan Jou, Manish Marwah
摘要: 网络钓鱼仍然是一个普遍且不断增长的威胁,造成了严重的经济损失和声誉损害。 虽然机器学习在实时检测网络钓鱼攻击方面已经有效,但由于缺乏大规模、高质量的数据集和基准测试,进展受到阻碍。 除了由于数据收集的挑战而导致的质量问题外,现有数据集还存在泄露和不现实的基础率问题,导致性能结果过于乐观。 在本文中,我们介绍了PhreshPhish,这是一个大规模、高质量的网络钓鱼网站数据集,解决了这些限制。 与现有的公共数据集相比,PhreshPhish在规模和质量上都有显著提升,这通过无效或错误标记数据点的估计率来衡量。 此外,我们提出了一套全面的基准数据集,专门设计用于通过最小化泄露、增加任务难度、增强数据集多样性以及调整更可能在现实世界中看到的基础率来进行现实模型评估。 我们训练和评估多种解决方案方法,以在基准集上提供基线性能。 我们认为,该数据集和基准的可用性将促进现实、标准化的模型比较,并推动网络钓鱼检测的进一步发展。 数据集和基准可在Hugging Face上获得 (https://huggingface.co/datasets/phreshphish/phreshphish).
摘要: Phishing remains a pervasive and growing threat, inflicting heavy economic and reputational damage. While machine learning has been effective in real-time detection of phishing attacks, progress is hindered by lack of large, high-quality datasets and benchmarks. In addition to poor-quality due to challenges in data collection, existing datasets suffer from leakage and unrealistic base rates, leading to overly optimistic performance results. In this paper, we introduce PhreshPhish, a large-scale, high-quality dataset of phishing websites that addresses these limitations. Compared to existing public datasets, PhreshPhish is substantially larger and provides significantly higher quality, as measured by the estimated rate of invalid or mislabeled data points. Additionally, we propose a comprehensive suite of benchmark datasets specifically designed for realistic model evaluation by minimizing leakage, increasing task difficulty, enhancing dataset diversity, and adjustment of base rates more likely to be seen in the real world. We train and evaluate multiple solution approaches to provide baseline performance on the benchmark sets. We believe the availability of this dataset and benchmarks will enable realistic, standardized model comparison and foster further advances in phishing detection. The datasets and benchmarks are available on Hugging Face (https://huggingface.co/datasets/phreshphish/phreshphish).
主题: 密码学与安全 (cs.CR) ; 人工智能 (cs.AI); 机器学习 (cs.LG)
引用方式: arXiv:2507.10854 [cs.CR]
  (或者 arXiv:2507.10854v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.10854
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Manish Marwah [查看电子邮件]
[v1] 星期一, 2025 年 7 月 14 日 23:02:59 UTC (11,232 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号