Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > math > arXiv:2302.01088v2

帮助 | 高级搜索

数学 > 统计理论

arXiv:2302.01088v2 (math)
[提交于 2023年2月2日 (v1) ,最后修订 2023年10月13日 (此版本, v2)]

标题: 草图无偏差线性回归:下采样的作用

标题: Sketched Ridgeless Linear Regression: The Role of Downsampling

Authors:Xin Chen, Yicheng Zeng, Siyue Yang, Qiang Sun
摘要: 过参数化通常有助于提高泛化性能。 本文从双重视角探讨了过参数化,表明下采样也可能有助于泛化。 聚焦于比例区间$m\asymp n \asymp p$,其中$m$表示下采样大小,$n$是样本大小,$p$是特征维度,我们研究了下采样无偏差最小二乘估计器的两种样本外预测风险。 我们的发现挑战了传统观念,表明下采样并不总是损害泛化,而是在某些情况下实际上可以提高泛化能力。 我们确定了最小化样本外预测风险的最佳下采样大小,并证明最优下采样估计器表现出更稳定的风险曲线,消除了全样本估计器的风险峰值。 为了便于实际应用,我们提出了一种经验性方法来确定最佳下采样大小。 最后,我们将分析扩展到涵盖中心极限定理和错误设定模型。 数值研究强烈支持我们的理论。
摘要: Overparametrization often helps improve the generalization performance. This paper presents a dual view of overparametrization suggesting that downsampling may also help generalize. Focusing on the proportional regime $m\asymp n \asymp p$, where $m$ represents the sketching size, $n$ is the sample size, and $p$ is the feature dimensionality, we investigate two out-of-sample prediction risks of the sketched ridgeless least square estimator. Our findings challenge conventional beliefs by showing that downsampling does not always harm generalization but can actually improve it in certain cases. We identify the optimal sketching size that minimizes out-of-sample prediction risks and demonstrate that the optimally sketched estimator exhibits stabler risk curves, eliminating the peaks of those for the full-sample estimator. To facilitate practical implementation, we propose an empirical procedure to determine the optimal sketching size. Finally, we extend our analysis to cover central limit theorems and misspecified models. Numerical studies strongly support our theory.
评论: 增加更多的数值实验和一些讨论,放松系数向量的高斯假设,转而采用矩条件
主题: 统计理论 (math.ST) ; 机器学习 (stat.ML)
引用方式: arXiv:2302.01088 [math.ST]
  (或者 arXiv:2302.01088v2 [math.ST] 对于此版本)
  https://doi.org/10.48550/arXiv.2302.01088
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Qiang Sun [查看电子邮件]
[v1] 星期四, 2023 年 2 月 2 日 13:21:09 UTC (193 KB)
[v2] 星期五, 2023 年 10 月 13 日 21:14:42 UTC (692 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
math.ST
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-02
切换浏览方式为:
math
stat
stat.ML
stat.TH

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号