统计学 > 方法论
[提交于 2022年5月5日
(v1)
,最后修订 2023年11月25日 (此版本, v3)]
标题: COMBSS:通过连续优化的最佳子集选择
标题: COMBSS: Best Subset Selection via Continuous Optimization
摘要: 在线性回归中考虑最佳子集选择的问题,旨在找到一个固定大小的特征子集,该子集能最好地拟合响应变量。 当可用特征的总数相对于数据样本的数量非常大时,这尤其具有挑战性。 现有的求解此问题的最优方法往往速度较慢,而快速的方法往往准确性较低。 理想情况下,新方法应比现有最优方法更快地进行最佳子集选择,同时保持可比较的准确性,或者在计算速度相当的情况下更加准确。 在这里,我们提出了一种新的连续优化方法,该方法可以识别出一个子集解决方案路径,即一个不同大小的模型的小集合,这些模型包括特征单个最佳子集的候选者,在线性回归中以某种特定方式是最优的。 我们的方法速度快,使得当特征数量远远超过数千时,可以进行最佳子集选择。 由于整体性能优异,将最佳子集选择问题表述为连续优化问题,为各种回归模型的特征提取开辟了新的研究方向。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.