Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:1704.00575

帮助 | 高级搜索

统计学 > 应用

arXiv:1704.00575 (stat)
[提交于 2017年4月3日 ]

标题: 稀疏均值定位的信息论方法

标题: Sparse mean localization by information theory

Authors:Emiliano Diaz
摘要: 稀疏特征选择在拟合统计模型时是必要的,当我们拥有大量的特征,但不知道哪些是相关的,并且假设大多数都不是。 或者,当特征的数量大于可用数据时,模型变得过度参数化,稀疏特征选择任务涉及为模型选择最具有信息量的变量。 当模型是一个简单的定位模型,并且相关特征的数量不随总特征数量增长时,稀疏特征选择对应于稀疏均值估计。 我们处理一个简化的均值估计问题,该问题包括一个带有高斯噪声的加性模型和一个处于受限有限假设空间中的均值。 这种限制将均值估计问题简化为一种组合性质的选择问题。 尽管假设空间是有限的,但它的大小在均值维度上呈指数增长。 在数据量有限的情况下,以及当假设空间的大小依赖于数据量或数据维度时,选择一组近似假设是一种可取的方法。 选择一组假设而不是单一假设意味着用分辨率-稳定性权衡替代偏差-方差权衡。 泛化能力提供了一种基于允许学习算法无错误地向学习者传达数据中最大信息量的分辨率选择标准。 在这项工作中,探索了近似集编码理论和泛化能力理论以理解这种方法。 然后我们将泛化能力准则应用于简化的稀疏均值估计问题,并详细描述了一种重要性抽样算法,该算法一次性解决了由大假设空间导致的困难和均匀抽样算法收敛缓慢的问题。
摘要: Sparse feature selection is necessary when we fit statistical models, we have access to a large group of features, don't know which are relevant, but assume that most are not. Alternatively, when the number of features is larger than the available data the model becomes over parametrized and the sparse feature selection task involves selecting the most informative variables for the model. When the model is a simple location model and the number of relevant features does not grow with the total number of features, sparse feature selection corresponds to sparse mean estimation. We deal with a simplified mean estimation problem consisting of an additive model with gaussian noise and mean that is in a restricted, finite hypothesis space. This restriction simplifies the mean estimation problem into a selection problem of combinatorial nature. Although the hypothesis space is finite, its size is exponential in the dimension of the mean. In limited data settings and when the size of the hypothesis space depends on the amount of data or on the dimension of the data, choosing an approximation set of hypotheses is a desirable approach. Choosing a set of hypotheses instead of a single one implies replacing the bias-variance trade off with a resolution-stability trade off. Generalization capacity provides a resolution selection criterion based on allowing the learning algorithm to communicate the largest amount of information in the data to the learner without error. In this work the theory of approximation set coding and generalization capacity is explored in order to understand this approach. We then apply the generalization capacity criterion to the simplified sparse mean estimation problem and detail an importance sampling algorithm which at once solves the difficulty posed by large hypothesis spaces and the slow convergence of uniform sampling algorithms.
主题: 应用 (stat.AP) ; 信息论 (cs.IT)
引用方式: arXiv:1704.00575 [stat.AP]
  (或者 arXiv:1704.00575v1 [stat.AP] 对于此版本)
  https://doi.org/10.48550/arXiv.1704.00575
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Emiliano Diaz [查看电子邮件]
[v1] 星期一, 2017 年 4 月 3 日 13:35:17 UTC (2,733 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
stat.AP
< 上一篇   |   下一篇 >
新的 | 最近的 | 2017-04
切换浏览方式为:
cs
cs.IT
math
math.IT
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号