Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.05777

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2510.05777 (cs)
[提交于 2025年10月7日 ]

标题: DP-SNP-TIHMM:用于合成全基因组关联数据集的差分隐私时间非齐次隐马尔可夫模型

标题: DP-SNP-TIHMM: Differentially Private, Time-Inhomogeneous Hidden Markov Models for Synthesizing Genome-Wide Association Datasets

Authors:Shadi Rahimian, Mario Fritz
摘要: 单核苷酸多态性(SNP)数据集对于遗传研究至关重要,但当共享时会带来重大的隐私风险。 SNP之间的相关性使得强大的对抗性攻击,如掩码值重建、亲属关系和成员推断攻击成为可能。 现有的隐私保护方法要么将差分隐私应用于这些数据集的统计摘要,要么提供需要后处理和使用公开可用数据集来抑制或选择性共享SNP的复杂方法。 在本研究中,我们引入了一种创新框架,通过从时变隐马尔可夫模型(TIHMMs)中提取的样本生成合成的SNP序列数据集。 为了保护训练数据的隐私,我们确保每个SNP序列在训练过程中仅产生有限的影响,从而实现强大的差分隐私保证。 关键的是,通过在完整的SNP序列上操作并限制它们的梯度贡献,我们的方法直接解决了其固有相关性带来的隐私风险。 通过在现实世界的1000基因组数据集上进行实验,我们使用隐私预算$\varepsilon \in [1, 10]$在$\delta=10^{-4}$的情况下证明了我们方法的有效性。 值得注意的是,通过允许HMM的转移模型依赖于序列中的位置,我们显著提高了性能,使合成数据集能够紧密复制非隐私数据集的统计特性。 该框架促进了基因组数据的隐私共享,同时为研究人员提供了卓越的灵活性和实用性。
摘要: Single nucleotide polymorphism (SNP) datasets are fundamental to genetic studies but pose significant privacy risks when shared. The correlation of SNPs with each other makes strong adversarial attacks such as masked-value reconstruction, kin, and membership inference attacks possible. Existing privacy-preserving approaches either apply differential privacy to statistical summaries of these datasets or offer complex methods that require post-processing and the usage of a publicly available dataset to suppress or selectively share SNPs. In this study, we introduce an innovative framework for generating synthetic SNP sequence datasets using samples derived from time-inhomogeneous hidden Markov models (TIHMMs). To preserve the privacy of the training data, we ensure that each SNP sequence contributes only a bounded influence during training, enabling strong differential privacy guarantees. Crucially, by operating on full SNP sequences and bounding their gradient contributions, our method directly addresses the privacy risks introduced by their inherent correlations. Through experiments conducted on the real-world 1000 Genomes dataset, we demonstrate the efficacy of our method using privacy budgets of $\varepsilon \in [1, 10]$ at $\delta=10^{-4}$. Notably, by allowing the transition models of the HMM to be dependent on the location in the sequence, we significantly enhance performance, enabling the synthetic datasets to closely replicate the statistical properties of non-private datasets. This framework facilitates the private sharing of genomic data while offering researchers exceptional flexibility and utility.
主题: 机器学习 (cs.LG) ; 密码学与安全 (cs.CR); 基因组学 (q-bio.GN)
引用方式: arXiv:2510.05777 [cs.LG]
  (或者 arXiv:2510.05777v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.05777
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Shadi Rahimian [查看电子邮件]
[v1] 星期二, 2025 年 10 月 7 日 10:47:29 UTC (1,647 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.CR
q-bio
q-bio.GN

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号