计算机科学 > 机器学习
[提交于 2024年3月12日
(v1)
,最后修订 2025年7月21日 (此版本, v2)]
标题: DP-TLDM:差分隐私表格潜在扩散模型
标题: DP-TLDM: Differentially Private Tabular Latent Diffusion Model
摘要: 生成模型的合成数据作为一种保护隐私的数据共享解决方案浮现出来。 这样的合成数据集应在不泄露可识别的私人信息的情况下,与原始数据相似。 到目前为止,先前的研究主要集中在有限类型的表格合成器和少量的隐私攻击上,特别是对生成对抗网络的攻击,并忽略了成员推断攻击和防御策略,即差分隐私。 受保持合成数据表的高数据质量和低隐私风险这一困境的驱动,我们提出了DPTLDM,即差分隐私表格潜在扩散模型,该模型由一个自动编码器网络来编码表格数据,以及一个潜在扩散模型来合成潜在表格。 在新兴的f-DP框架下,我们应用DP-SGD来训练自动编码器,结合批次裁剪,并使用分离值作为隐私度量,以更好地捕捉差分隐私算法带来的隐私收益。 我们的实证评估表明,DPTLDM能够在实现有意义的理论隐私保证的同时,显著提高合成数据的效用。 具体而言,与其他受差分隐私保护的表格生成模型相比,DPTLDM在数据相似性方面平均提高了35%,在下游任务的效用方面提高了15%,在数据可区分性方面提高了50%,同时保持了相当水平的隐私风险。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.