计算机科学 > 计算与语言
[提交于 2025年4月11日
]
标题: 英文文本的多标签分类机器学习模型和数据集综述
标题: A Survey of Machine Learning Models and Datasets for the Multi-label Classification of Textual Hate Speech in English
摘要: 在线仇恨言论的传播可能对个人、在线社区和整个社会产生严重的负面后果。 这一点以及大量的仇恨在线内容促使实践者(即内容审核或执法部门)和研究人员对机器学习模型产生了兴趣,这些模型可以自动分类仇恨言论实例。 尽管大多数科研工作将仇恨言论分类作为二元任务来处理,但实践中常常需要根据目标、严重程度或合法性等对子类型进行区分,而这些子类型可能在个别内容中重叠。 因此,研究人员创建了数据集和机器学习模型,将文本数据中的仇恨言论分类作为多标签问题来处理。 本研究对这一新兴研究领域的英文科学文献进行了首次系统且全面的综述(N=46)。 我们提供了28个适合训练多标签分类模型的数据集的简明概述,结果显示在标签集、规模、元概念、标注过程和标注者间一致性方面存在显著的异质性。 我们对24篇提出合适分类模型的文献进行分析,进一步确认了评估的一致性不足,并倾向于基于双向编码器表示的变压器(BERT)和循环神经网络(RNNs)的架构。 我们识别出不平衡的训练数据、依赖众包平台、小而稀疏的数据集以及方法论的缺失对齐作为关键的开放问题,并提出了十项研究建议。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.