计算机科学 > 计算与语言
[提交于 2025年7月16日
]
标题: Text-ADBench:基于LLMs嵌入的文本异常检测基准
标题: Text-ADBench: Text Anomaly Detection Benchmark based on LLMs Embedding
摘要: 文本异常检测是自然语言处理(NLP)中的关键任务,其应用范围涵盖欺诈检测、虚假信息识别、垃圾信息检测和内容审核等。尽管大型语言模型(LLMs)和异常检测算法取得了显著进展,但缺乏对文本数据上现有异常检测方法进行评估的标准且全面的基准,限制了严格比较和创新方法的发展。本工作进行了全面的实证研究,并引入了一个文本异常检测的基准,利用来自多种预训练语言模型的嵌入,在广泛的各种文本数据集上进行实验。我们的工作系统地评估了基于嵌入的文本异常检测效果,包括(1)早期语言模型(GloVe,BERT);(2)多个LLM(LLaMa-2,LLama-3,Mistral,OpenAI(small,ada,large));(3)多领域文本数据集(新闻,社交媒体,科技论文);(4)全面的评估指标(AUROC,AUPRC)。我们的实验揭示了一个关键的实证洞察:嵌入质量显著影响异常检测效果,当使用LLM生成的嵌入时,基于深度学习的方法在性能上并不优于传统的浅层算法(例如,KNN,孤立森林)。此外,我们观察到跨模型性能矩阵具有很强的低秩特性,这使得在实际应用中能够高效地进行快速模型评估(或嵌入评估)和选择。此外,通过开源我们的基准工具包,其中包括不同模型的所有嵌入和代码,地址为https://github.com/jicongfan/Text-Anomaly-Detection-Benchmark,本工作为未来在稳健和可扩展的文本异常检测系统方面的研究提供了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.