数学 > 统计理论
[提交于 2019年2月14日
]
标题: 最优披露风险评估
标题: Optimal disclosure risk assessment
摘要: 对披露的保护是发布用于公共使用的微数据文件的机构的法律和道德义务。 考虑一个大小为$n$的微数据样本,来自一个大小为$\bar{n}=n+\lambda n$的有限总体,其中$\lambda>0$,使得每条记录包含两种不相交类型的信息:识别型分类信息和敏感信息。 任何关于发布数据的决定都由对披露风险度量的估计所支持,这些度量是样本记录中具有唯一识别变量值组合的数量的泛函。 最常用的度量无疑是样本中为人口唯一记录的唯一记录数$\tau_{1}$。 在本文中,我们首先研究在样本记录的泊松丰富模型下$\tau_{1}$的非参数估计。 我们引入了一类$\tau_{1}$的线性估计量,这些估计量简单、计算效率高且可扩展到大规模数据集,并为其提供了统一的理论保证。 特别是,我们证明它们可以准确估计 $\tau_{1}$ 直到采样比例 $(\lambda+1)^{-1}\propto (\log n)^{-1}$,并且对于大的 $n$,归一化均方误差(NMSE)趋于零。 然后我们建立了 $\tau_{1}$ 估计的最小最大 NMSE 的下界,这使我们能够证明:i) $(\lambda+1)^{-1}\propto (\log n)^{-1}$ 是可能的最小采样比例;ii) 对于大的 $n$,估计器的 NMSE 接近最优,在匹配最小最大下界的意义上。 这是本文的主要结果,它对在泊松丰度模型下非参数估计$\tau_{1}$的可行性以及采样比例$(\lambda+1)^{-1}<1/2$的开放性问题提供了精确的答案。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.