数学 > 统计理论
[提交于 2022年5月6日
(v1)
,最后修订 2022年12月10日 (此版本, v2)]
标题: 什么造就了优秀的渔夫? 自我选择偏差下的线性回归
标题: What Makes A Good Fisherman? Linear Regression under Self-Selection Bias
摘要: 在经典自选择设置中,目标是从观察值$(x^{(i)}, y^{(i)})$中同时学习$k$模型,其中$y^{(i)}$是输入$x^{(i)}$上的 $k$个底层模型之一的输出。 与混合模型不同,在混合模型中我们观察的是随机选择的模型的输出,而在这里,观察到的模型依赖于输出本身,并由某些已知的选择准则确定。 例如,我们可能会观察到 $k$个模型中的最高输出、最小输出或中位数输出。 在已知索引的自选择中,观察到的模型输出的身份是可观察的;在未知索引的自选择中,则不是。 自选择在计量经济学中有着悠久的历史,并在各种理论和应用领域中有应用,包括处理效应估计、模仿学习、从战略报告数据中学习以及从非均衡市场中学习。 在本工作中,我们提出了针对这个问题最标准设置的第一个计算和统计上高效的估计算法,其中模型是线性的。 在已知索引的情况下,我们需要多项式$(1/\varepsilon, k, d)$的样本和时间复杂度,以精度$\varepsilon$在$d$维度下估计所有模型参数,并且可以适应非常一般的选取标准。 在更具挑战性的未知索引情况下,甚至线性模型的可识别性(从无限多样本中)都是未知的。 我们在这种情况下展示了关于广泛研究的$\max$自选择准则的三个结果:(1) 我们证明线性模型确实是可识别的,(2) 对于一般的$k$我们提供了一个具有多项式$(d) \exp(\text{poly}(k))$样本和时间复杂度的算法,以误差$1/\text{poly}(k)$估计回归参数,(3) 对于$k = 2$我们提供了一个对于任何误差$\varepsilon$和多项式$(d, 1/\varepsilon)$样本和时间复杂度的算法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.