统计学 > 机器学习
[提交于 2017年5月1日
]
标题: 正则化模型复杂度和标签结构用于多标签文本分类
标题: Regularizing Model Complexity and Label Structure for Multi-Label Text Classification
摘要: 多标签文本分类是一种流行的机器学习任务,其中每篇文档会被赋予多个相关的标签。 由于高维特征和相关标签的存在,这项任务具有挑战性。 多标签文本分类器需要被仔细正则化以防止在高维空间中的严重过拟合,并且还需要考虑标签依赖关系以便在不确定性下做出准确的预测。 我们通过在训练阶段仔细正则化模型复杂度以及在预测阶段正则化标签搜索空间,展示了显著且实用的改进。 具体而言,我们使用Elastic-net(L1+L2)惩罚来正则化分类器训练以减少模型复杂度/大小,并采用早期停止来防止过拟合。 在预测时,我们应用支持推理来将搜索空间限制为训练集中遇到的标签集,并使用F优化器GFM针对F1指标进行最优预测。 我们表明,尽管支持推理仅在现有标签组合上提供密度估计,但与GFM预测器结合后,该算法可以输出未见的标签组合。 总体而言,我们的实验显示了在许多基准数据集上的最先进结果。 除了性能和实际贡献之外,我们还观察到一些有趣的现象。 与先前认为支持推理仅为一种近似推理程序的观点相反,我们表明支持推理实际上作为标签预测结构的强大正则化器起作用。 它允许分类器在预测过程中即使在训练期间未建模任何标签依赖关系的情况下,也能考虑到标签依赖关系。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.