统计学 > 应用
[提交于 2017年4月3日
]
标题: 稀疏均值定位的信息论方法
标题: Sparse mean localization by information theory
摘要: 稀疏特征选择在拟合统计模型时是必要的,当我们拥有大量的特征,但不知道哪些是相关的,并且假设大多数都不是。 或者,当特征的数量大于可用数据时,模型变得过度参数化,稀疏特征选择任务涉及为模型选择最具有信息量的变量。 当模型是一个简单的定位模型,并且相关特征的数量不随总特征数量增长时,稀疏特征选择对应于稀疏均值估计。 我们处理一个简化的均值估计问题,该问题包括一个带有高斯噪声的加性模型和一个处于受限有限假设空间中的均值。 这种限制将均值估计问题简化为一种组合性质的选择问题。 尽管假设空间是有限的,但它的大小在均值维度上呈指数增长。 在数据量有限的情况下,以及当假设空间的大小依赖于数据量或数据维度时,选择一组近似假设是一种可取的方法。 选择一组假设而不是单一假设意味着用分辨率-稳定性权衡替代偏差-方差权衡。 泛化能力提供了一种基于允许学习算法无错误地向学习者传达数据中最大信息量的分辨率选择标准。 在这项工作中,探索了近似集编码理论和泛化能力理论以理解这种方法。 然后我们将泛化能力准则应用于简化的稀疏均值估计问题,并详细描述了一种重要性抽样算法,该算法一次性解决了由大假设空间导致的困难和均匀抽样算法收敛缓慢的问题。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.