计算机科学 > 机器学习
[提交于 2024年1月31日
(v1)
,最后修订 2024年4月28日 (此版本, v2)]
标题: 去中心化、协作性和隐私保护的多医院数据机器学习
标题: Decentralised, Collaborative, and Privacy-preserving Machine Learning for Multi-Hospital Data
摘要: 机器学习(ML)在医疗数据分析中展示了其巨大的潜力。 从不同来源和环境中收集的大数据集对于医疗保健中的ML模型来说是实现更好准确性和泛化能力的关键。 由于复杂的隐私和监管要求各不相同,跨不同医疗保健机构共享数据具有挑战性。 因此,允许多方在不直接共享这些数据或通过协作损害数据集隐私的情况下,利用每个方的私有数据集协同训练ML模型,这虽然困难但至关重要。 在本文中,我们通过提出去中心化、协作且隐私保护的多医院数据机器学习(DeCaPH)来解决这一挑战。 它提供了以下关键优势:(1)它允许不同方在不转移其私有数据集的情况下协同训练一个ML模型;(2)它通过限制在训练过程中各方之间共享内容可能引发的隐私泄露来保护患者隐私;(3)它在不依赖集中式服务器的情况下促进ML模型的训练。 我们在三个不同的任务上使用现实世界分布式的医疗数据集展示了DeCaPH的泛化能力和强大功能:使用电子健康记录进行患者死亡率预测,使用单细胞人类基因组进行细胞类型分类,以及使用胸部放射图像进行病理识别。 我们证明了使用DeCaPH框架训练的ML模型在效用-隐私权衡方面有所改进,表明它使模型在保持训练数据点隐私的同时具有良好的性能。 此外,总体而言,使用DeCaPH框架训练的ML模型优于仅使用来自各个独立方的私有数据集训练的模型,这表明DeCaPH增强了模型的泛化能力。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.