Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2506.00467

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2506.00467 (cs)
[提交于 2025年5月31日 ]

标题: SST:基于自适应阈值的自我训练在半监督学习中的应用

标题: SST: Self-training with Self-adaptive Thresholding for Semi-supervised Learning

Authors:Shuai Zhao, Heyan Huang, Xinge Li, Xiaokang Chen, Rui Wang
摘要: 神经网络在有监督学习中表现出色,得益于大量高质量标注数据的支持。然而,在现实场景中获取此类数据成本高昂且耗时费力。半监督学习(SSL)为此问题提供了一种解决方案。近期研究如Semi-ViT和Noisy Student,采用一致性正则化或伪标签方法,取得了显著成就。然而,它们仍面临挑战,尤其是在由于依赖固定阈值而难以准确选择足够高质量伪标签的问题上。最近的方法如FlexMatch和FreeMatch引入了灵活或自适应阈值技术,极大地推动了SSL研究的发展。然而,它们每次迭代更新阈值的过程被认为耗时、计算密集且可能不必要的。为了解决这些问题,我们提出了带自适应阈值的自我训练(SST),这是一种新颖、有效且高效的SSL框架。SST引入了一种创新的自适应阈值机制,根据模型的学习进度自适应调整类别特定的阈值。该机制确保高质量伪标签数据的选择,减轻了伪标签不准确和确认偏差的风险。广泛的实验表明,SST在各种架构和数据集上实现了最先进的性能,具有卓越的效率、泛化能力和可扩展性。Semi-SST-ViT-Huge在竞争性的ImageNet-1K SSL基准测试中取得了最佳结果,使用仅1%/10%标记数据分别达到80.7%/84.9%的Top-1准确率。与完全监督的DeiT-III-ViT-Huge相比,后者使用100%标记数据达到84.8%的Top-1准确率,我们的方法仅用10%标记数据就展示了优越的性能。
摘要: Neural networks have demonstrated exceptional performance in supervised learning, benefiting from abundant high-quality annotated data. However, obtaining such data in real-world scenarios is costly and labor-intensive. Semi-supervised learning (SSL) offers a solution to this problem. Recent studies, such as Semi-ViT and Noisy Student, which employ consistency regularization or pseudo-labeling, have demonstrated significant achievements. However, they still face challenges, particularly in accurately selecting sufficient high-quality pseudo-labels due to their reliance on fixed thresholds. Recent methods such as FlexMatch and FreeMatch have introduced flexible or self-adaptive thresholding techniques, greatly advancing SSL research. Nonetheless, their process of updating thresholds at each iteration is deemed time-consuming, computationally intensive, and potentially unnecessary. To address these issues, we propose Self-training with Self-adaptive Thresholding (SST), a novel, effective, and efficient SSL framework. SST introduces an innovative Self-Adaptive Thresholding (SAT) mechanism that adaptively adjusts class-specific thresholds based on the model's learning progress. SAT ensures the selection of high-quality pseudo-labeled data, mitigating the risks of inaccurate pseudo-labels and confirmation bias. Extensive experiments demonstrate that SST achieves state-of-the-art performance with remarkable efficiency, generalization, and scalability across various architectures and datasets. Semi-SST-ViT-Huge achieves the best results on competitive ImageNet-1K SSL benchmarks, with 80.7% / 84.9% Top-1 accuracy using only 1% / 10% labeled data. Compared to the fully-supervised DeiT-III-ViT-Huge, which achieves 84.8% Top-1 accuracy using 100% labeled data, our method demonstrates superior performance using only 10% labeled data.
评论: 已被《信息处理与管理》(IP&M)接受
主题: 机器学习 (cs.LG) ; 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2506.00467 [cs.LG]
  (或者 arXiv:2506.00467v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.00467
通过 DataCite 发表的 arXiv DOI
期刊参考: Information Processing & Management, 2025, 62(5): 104158
相关 DOI: https://doi.org/10.1016/j.ipm.2025.104158
链接到相关资源的 DOI

提交历史

来自: Shuai Zhao [查看电子邮件]
[v1] 星期六, 2025 年 5 月 31 日 08:34:04 UTC (600 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
cs
cs.AI
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号