Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2502.11413v1

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2502.11413v1 (cs)
[提交于 2025年2月17日 ]

标题: 带有随机分类噪声的多类线性分类的统计查询 hardness

标题: Statistical Query Hardness of Multiclass Linear Classification with Random Classification Noise

Authors:Ilias Diakonikolas, Mingchen Ma, Lisheng Ren, Christos Tzamos
摘要: 我们研究了在无分布假设的PAC模型中带有随机分类噪声(RCN)的多类线性分类(MLC)任务。 具体来说,学习者会得到一组带标签的例子$(x, y)$,其中$x$是从$R^d$上未知分布中抽取的,并且标签是由一个带有RCN的多类线性分类器生成的。 也就是说,标签$y$根据一个已知的噪声矩阵$H$(具有非负分离$\sigma: = \min_{i \neq j} H_{ii}-H_{ij}$)以概率$H_{ij}$从$i$翻转到$j$。 目标是最小化0-1误差来计算一个假设。 对于只有两个标签的特殊情况,已有工作给出了达到最优误差的多项式时间算法。 令人惊讶的是,即使对于三个标签,关于此任务的复杂性也知之甚少。 作为我们的主要贡献,我们证明了当存在三个或更多标签时,MLC(多标签分类)与RCN(相关噪声)的复杂性变得截然不同。 具体来说,我们证明了这个问题在统计查询(SQ)下有超多项式下界。 更详细地说,即使对于三个标签和常数分离,我们也给出了任何实现最优误差的SQ算法复杂性的超多项式下界。 对于更多的标签数量和更小的分离,我们甚至展示了即使是为了实现接近最优损失的任意常数因子近似或者甚至优于平凡假设的目标,也有超多项式SQ下界。
摘要: We study the task of Multiclass Linear Classification (MLC) in the distribution-free PAC model with Random Classification Noise (RCN). Specifically, the learner is given a set of labeled examples $(x, y)$, where $x$ is drawn from an unknown distribution on $R^d$ and the labels are generated by a multiclass linear classifier corrupted with RCN. That is, the label $y$ is flipped from $i$ to $j$ with probability $H_{ij}$ according to a known noise matrix $H$ with non-negative separation $\sigma: = \min_{i \neq j} H_{ii}-H_{ij}$. The goal is to compute a hypothesis with small 0-1 error. For the special case of two labels, prior work has given polynomial-time algorithms achieving the optimal error. Surprisingly, little is known about the complexity of this task even for three labels. As our main contribution, we show that the complexity of MLC with RCN becomes drastically different in the presence of three or more labels. Specifically, we prove super-polynomial Statistical Query (SQ) lower bounds for this problem. In more detail, even for three labels and constant separation, we give a super-polynomial lower bound on the complexity of any SQ algorithm achieving optimal error. For a larger number of labels and smaller separation, we show a super-polynomial SQ lower bound even for the weaker goal of achieving any constant factor approximation to the optimal loss or even beating the trivial hypothesis.
主题: 机器学习 (cs.LG) ; 机器学习 (stat.ML)
引用方式: arXiv:2502.11413 [cs.LG]
  (或者 arXiv:2502.11413v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2502.11413
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Mingchen Ma [查看电子邮件]
[v1] 星期一, 2025 年 2 月 17 日 03:54:38 UTC (418 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-02
切换浏览方式为:
cs
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号