计算机科学 > 机器学习
[提交于 2025年10月7日
]
标题: DP-SNP-TIHMM:用于合成全基因组关联数据集的差分隐私时间非齐次隐马尔可夫模型
标题: DP-SNP-TIHMM: Differentially Private, Time-Inhomogeneous Hidden Markov Models for Synthesizing Genome-Wide Association Datasets
摘要: 单核苷酸多态性(SNP)数据集对于遗传研究至关重要,但当共享时会带来重大的隐私风险。 SNP之间的相关性使得强大的对抗性攻击,如掩码值重建、亲属关系和成员推断攻击成为可能。 现有的隐私保护方法要么将差分隐私应用于这些数据集的统计摘要,要么提供需要后处理和使用公开可用数据集来抑制或选择性共享SNP的复杂方法。 在本研究中,我们引入了一种创新框架,通过从时变隐马尔可夫模型(TIHMMs)中提取的样本生成合成的SNP序列数据集。 为了保护训练数据的隐私,我们确保每个SNP序列在训练过程中仅产生有限的影响,从而实现强大的差分隐私保证。 关键的是,通过在完整的SNP序列上操作并限制它们的梯度贡献,我们的方法直接解决了其固有相关性带来的隐私风险。 通过在现实世界的1000基因组数据集上进行实验,我们使用隐私预算$\varepsilon \in [1, 10]$在$\delta=10^{-4}$的情况下证明了我们方法的有效性。 值得注意的是,通过允许HMM的转移模型依赖于序列中的位置,我们显著提高了性能,使合成数据集能够紧密复制非隐私数据集的统计特性。 该框架促进了基因组数据的隐私共享,同时为研究人员提供了卓越的灵活性和实用性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.