计算机科学 > 机器学习
[提交于 2023年3月27日
]
标题: 评估XGBoost在平衡和不平衡数据中的表现:在欺诈检测中的应用
标题: Evaluating XGBoost for Balanced and Imbalanced Data: Application to Fraud Detection
摘要: 本文评估了在不同数据集大小和类别分布情况下XGboost的性能,从完全平衡到高度不平衡。XGBoost被选为评估对象,因为它在多个基准测试中因其检测性能和速度而脱颖而出。在介绍欺诈检测问题后,本文回顾了检测系统或二分类器的评估指标,并通过示例说明不同指标在平衡和不平衡数据集上的工作方式。然后,它研究了XGBoost的原理。它提出了一种数据准备的流程,并将原始XGBoost与随机搜索调优的XGBoost进行了比较。随机搜索调优在10万样本的大数据集上提供了持续的改进,而对于10和1千样本的中等和小数据集则没有那么明显。此外,正如预期的那样,随着可用数据的增加,XGBoost的识别性能会提高,而当数据集变得更加不平衡时,检测性能会下降。对具有50、45、25和5百分比正样本分布的测试显示,检测性能的最大下降发生在只有5百分比正样本的分布上。对训练集进行采样以平衡并不提供持续的改进。因此,未来的工作将包括对不同处理数据不平衡技术的系统研究,并评估其他方法,包括图、自编码器和生成对抗方法,以应对标签不足的问题。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.