计算机科学 > 计算与语言
[提交于 2025年1月5日
(v1)
,最后修订 2025年5月4日 (此版本, v2)]
标题: 面向语言模型的匿名化
标题: Towards the Anonymization of the Language Modeling
摘要: 自然语言处理(NLP)的迅速发展已经革新了许多领域,包括医疗保健。 然而,这些进展引发了重要的隐私问题,特别是在微调并专门针对敏感数据的预训练模型可能会记住并暴露和重复个人信息的情况下。 本文提出了一种保护隐私的语言建模方法,以解决语言模型匿名化的问题,从而促进它们的共享。 具体来说,我们提出了一种掩码语言建模(MLM)方法,用于专门化类似BERT的语言模型,以及一种因果语言建模(CLM)方法,用于专门化类似GPT的模型,以避免模型记住训练数据中存在的直接和间接的身份信息。 我们使用医学数据集对我们的方法进行了全面评估,并与不同的基线进行了比较。 我们的结果表明,通过在模型专门化过程中避免记住直接和间接标识符,我们的掩码和因果语言建模方案在保持高隐私性的同时保留高实用性方面提供了良好的权衡。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.