SKALD: Scalable K-Anonymisation for Large Datasets

Reddy, Kailash; Chakraborty, Novoneel; Dharmavaram, Amogh; Tandon, Anshoo

计算机科学 > 信息论

arXiv:2505.03529 (cs)

[提交于 2025年5月6日 (v1) ，最后修订 2025年7月1日 (此版本， v2)]

标题： SKALD：适用于大型数据集的可扩展K-匿名化

标题： SKALD: Scalable K-Anonymisation for Large Datasets

Authors:Kailash Reddy, Novoneel Chakraborty, Amogh Dharmavaram, Anshoo Tandon

摘要：数据隐私和匿名化是当今数据驱动社会中的关键问题，尤其是在处理个人和敏感用户数据时。全球的监管框架建议使用隐私保护协议，如k-匿名化，以对表格数据的发布进行去标识化。可用的硬件资源为一次可以处理的数据集的最大大小提供了上限。超过此上限的大数据集必须被拆分为较小的数据块进行处理。在这些情况下，标准的k-匿名化工具如ARX只能按每个数据块进行操作。本文提出了SKALD，一种新颖的算法，用于在有限RAM的大数据集上执行k-匿名化。我们的SKALD算法通过在处理过程中从每个数据块中提取并组合足够的统计信息，以确保成功的k-匿名化，同时提供更好的实用性，从而在标准的k-匿名化方法上实现了多倍的性能提升。

摘要： Data privacy and anonymisation are critical concerns in today's data-driven society, particularly when handling personal and sensitive user data. Regulatory frameworks worldwide recommend privacy-preserving protocols such as k-anonymisation to de-identify releases of tabular data. Available hardware resources provide an upper bound on the maximum size of dataset that can be processed at a time. Large datasets with sizes exceeding this upper bound must be broken up into smaller data chunks for processing. In these cases, standard k-anonymisation tools such as ARX can only operate on a per-chunk basis. This paper proposes SKALD, a novel algorithm for performing k-anonymisation on large datasets with limited RAM. Our SKALD algorithm offers multi-fold performance improvement over standard k-anonymisation methods by extracting and combining sufficient statistics from each chunk during processing to ensure successful k-anonymisation while providing better utility.

评论：	7页，3图，3表
主题：	信息论 (cs.IT) ; 密码学与安全 (cs.CR)
引用方式：	arXiv:2505.03529 [cs.IT]
	(或者 arXiv:2505.03529v2 [cs.IT] 对于此版本)
	https://doi.org/10.48550/arXiv.2505.03529

提交历史

来自： Novoneel Chakraborty [查看电子邮件]
[v1] 星期二， 2025 年 5 月 6 日 13:38:53 UTC (776 KB)
[v2] 星期二， 2025 年 7 月 1 日 10:09:57 UTC (759 KB)

计算机科学 > 信息论

标题： SKALD：适用于大型数据集的可扩展K-匿名化

标题： SKALD: Scalable K-Anonymisation for Large Datasets

提交历史

获取论文：

参考文献与引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

计算机科学 > 信息论

标题： SKALD：适用于大型数据集的可扩展K-匿名化 显示英文标题

标题： SKALD: Scalable K-Anonymisation for Large Datasets

提交历史

获取论文：

参考文献与引用

BibTeX 格式的引用

收藏

文献和引用工具

与本文相关的代码，数据和媒体

演示

推荐器和搜索工具

arXivLabs：与社区合作伙伴的实验项目

标题： SKALD：适用于大型数据集的可扩展K-匿名化