数学 > 统计理论
[提交于 2021年8月26日
(此版本)
, 最新版本 2022年6月12日 (v2)
]
标题: 比较估计量的类别:在线性模型中,梯度下降何时优于岭回归?
标题: Comparing Classes of Estimators: When does Gradient Descent Beat Ridge Regression in Linear Models?
摘要: 现代从数据中学习的方法依赖于许多调参,例如优化方法中的步长,以及正则化学习方法中的正则化强度。 由于性能可能强烈依赖于这些参数,因此开发 \emph{方法类}之间的比较非常重要,而不仅仅是针对特别调优的参数。 在这里,我们旨在通过 \emph{该类中的最佳方法}的相对性能来比较估计量的类别。 这使我们能够严格量化学习算法的调参敏感性。 作为说明,我们研究了在具有随机各向同性真实参数的标准线性模型中,岭回归在均匀正则化参数网格下的统计估计性能,以及固定步长的梯度下降迭代的性能。 (1) 对于正交设计,我们发现 \emph{精确最小最大最优估计量类},表明它们等于学习率多项式衰减的梯度下降。 我们找到了岭回归和固定步长梯度下降的精确次优性,表明它们的衰减方式为 $1/k$ 或 $1/k^2$,具体取决于 $k$估计量的特定范围。 (2) 对于具有大量非零特征值的一般设计,我们发现当特征值缓慢衰减时(以指数小于1的幂律形式),梯度下降优于岭回归。 如果特征值快速衰减,以指数大于1的幂律形式或指数形式,则我们发现岭回归优于梯度下降。 我们的结果突出了调参的重要性。 特别是,虽然最优调优的岭回归在我们的情况下是最优估计量,但当两者都被限制在有限的正则化网格上进行调优时,它可能会被梯度下降超越。
当前浏览上下文:
math.ST
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.