Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:1705.00740

帮助 | 高级搜索

统计学 > 机器学习

arXiv:1705.00740 (stat)
[提交于 2017年5月1日 ]

标题: 正则化模型复杂度和标签结构用于多标签文本分类

标题: Regularizing Model Complexity and Label Structure for Multi-Label Text Classification

Authors:Bingyu Wang, Cheng Li, Virgil Pavlu, Javed Aslam
摘要: 多标签文本分类是一种流行的机器学习任务,其中每篇文档会被赋予多个相关的标签。 由于高维特征和相关标签的存在,这项任务具有挑战性。 多标签文本分类器需要被仔细正则化以防止在高维空间中的严重过拟合,并且还需要考虑标签依赖关系以便在不确定性下做出准确的预测。 我们通过在训练阶段仔细正则化模型复杂度以及在预测阶段正则化标签搜索空间,展示了显著且实用的改进。 具体而言,我们使用Elastic-net(L1+L2)惩罚来正则化分类器训练以减少模型复杂度/大小,并采用早期停止来防止过拟合。 在预测时,我们应用支持推理来将搜索空间限制为训练集中遇到的标签集,并使用F优化器GFM针对F1指标进行最优预测。 我们表明,尽管支持推理仅在现有标签组合上提供密度估计,但与GFM预测器结合后,该算法可以输出未见的标签组合。 总体而言,我们的实验显示了在许多基准数据集上的最先进结果。 除了性能和实际贡献之外,我们还观察到一些有趣的现象。 与先前认为支持推理仅为一种近似推理程序的观点相反,我们表明支持推理实际上作为标签预测结构的强大正则化器起作用。 它允许分类器在预测过程中即使在训练期间未建模任何标签依赖关系的情况下,也能考虑到标签依赖关系。
摘要: Multi-label text classification is a popular machine learning task where each document is assigned with multiple relevant labels. This task is challenging due to high dimensional features and correlated labels. Multi-label text classifiers need to be carefully regularized to prevent the severe over-fitting in the high dimensional space, and also need to take into account label dependencies in order to make accurate predictions under uncertainty. We demonstrate significant and practical improvement by carefully regularizing the model complexity during training phase, and also regularizing the label search space during prediction phase. Specifically, we regularize the classifier training using Elastic-net (L1+L2) penalty for reducing model complexity/size, and employ early stopping to prevent overfitting. At prediction time, we apply support inference to restrict the search space to label sets encountered in the training set, and F-optimizer GFM to make optimal predictions for the F1 metric. We show that although support inference only provides density estimations on existing label combinations, when combined with GFM predictor, the algorithm can output unseen label combinations. Taken collectively, our experiments show state of the art results on many benchmark datasets. Beyond performance and practical contributions, we make some interesting observations. Contrary to the prior belief, which deems support inference as purely an approximate inference procedure, we show that support inference acts as a strong regularizer on the label prediction structure. It allows the classifier to take into account label dependencies during prediction even if the classifiers had not modeled any label dependencies during training.
主题: 机器学习 (stat.ML) ; 机器学习 (cs.LG)
引用方式: arXiv:1705.00740 [stat.ML]
  (或者 arXiv:1705.00740v1 [stat.ML] 对于此版本)
  https://doi.org/10.48550/arXiv.1705.00740
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Cheng Li [查看电子邮件]
[v1] 星期一, 2017 年 5 月 1 日 23:30:13 UTC (3,428 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.ML
< 上一篇   |   下一篇 >
新的 | 最近的 | 2017-05
切换浏览方式为:
cs
cs.LG
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号