Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2402.00205v2

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2402.00205v2 (cs)
[提交于 2024年1月31日 (v1) ,最后修订 2024年4月28日 (此版本, v2)]

标题: 去中心化、协作性和隐私保护的多医院数据机器学习

标题: Decentralised, Collaborative, and Privacy-preserving Machine Learning for Multi-Hospital Data

Authors:Congyu Fang, Adam Dziedzic, Lin Zhang, Laura Oliva, Amol Verma, Fahad Razak, Nicolas Papernot, Bo Wang
摘要: 机器学习(ML)在医疗数据分析中展示了其巨大的潜力。 从不同来源和环境中收集的大数据集对于医疗保健中的ML模型来说是实现更好准确性和泛化能力的关键。 由于复杂的隐私和监管要求各不相同,跨不同医疗保健机构共享数据具有挑战性。 因此,允许多方在不直接共享这些数据或通过协作损害数据集隐私的情况下,利用每个方的私有数据集协同训练ML模型,这虽然困难但至关重要。 在本文中,我们通过提出去中心化、协作且隐私保护的多医院数据机器学习(DeCaPH)来解决这一挑战。 它提供了以下关键优势:(1)它允许不同方在不转移其私有数据集的情况下协同训练一个ML模型;(2)它通过限制在训练过程中各方之间共享内容可能引发的隐私泄露来保护患者隐私;(3)它在不依赖集中式服务器的情况下促进ML模型的训练。 我们在三个不同的任务上使用现实世界分布式的医疗数据集展示了DeCaPH的泛化能力和强大功能:使用电子健康记录进行患者死亡率预测,使用单细胞人类基因组进行细胞类型分类,以及使用胸部放射图像进行病理识别。 我们证明了使用DeCaPH框架训练的ML模型在效用-隐私权衡方面有所改进,表明它使模型在保持训练数据点隐私的同时具有良好的性能。 此外,总体而言,使用DeCaPH框架训练的ML模型优于仅使用来自各个独立方的私有数据集训练的模型,这表明DeCaPH增强了模型的泛化能力。
摘要: Machine Learning (ML) has demonstrated its great potential on medical data analysis. Large datasets collected from diverse sources and settings are essential for ML models in healthcare to achieve better accuracy and generalizability. Sharing data across different healthcare institutions is challenging because of complex and varying privacy and regulatory requirements. Hence, it is hard but crucial to allow multiple parties to collaboratively train an ML model leveraging the private datasets available at each party without the need for direct sharing of those datasets or compromising the privacy of the datasets through collaboration. In this paper, we address this challenge by proposing Decentralized, Collaborative, and Privacy-preserving ML for Multi-Hospital Data (DeCaPH). It offers the following key benefits: (1) it allows different parties to collaboratively train an ML model without transferring their private datasets; (2) it safeguards patient privacy by limiting the potential privacy leakage arising from any contents shared across the parties during the training process; and (3) it facilitates the ML model training without relying on a centralized server. We demonstrate the generalizability and power of DeCaPH on three distinct tasks using real-world distributed medical datasets: patient mortality prediction using electronic health records, cell-type classification using single-cell human genomes, and pathology identification using chest radiology images. We demonstrate that the ML models trained with DeCaPH framework have an improved utility-privacy trade-off, showing it enables the models to have good performance while preserving the privacy of the training data points. In addition, the ML models trained with DeCaPH framework in general outperform those trained solely with the private datasets from individual parties, showing that DeCaPH enhances the model generalizability.
评论: 第6页和第12页,更正了拼写错误。结果不变
主题: 机器学习 (cs.LG) ; 密码学与安全 (cs.CR)
引用方式: arXiv:2402.00205 [cs.LG]
  (或者 arXiv:2402.00205v2 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2402.00205
通过 DataCite 发表的 arXiv DOI
期刊参考: eBioMedicine, vol. 101, p. 105006, 2024
相关 DOI: https://doi.org/10.1016/j.ebiom.2024.105006
链接到相关资源的 DOI

提交历史

来自: Congyu Fang [查看电子邮件]
[v1] 星期三, 2024 年 1 月 31 日 22:06:10 UTC (4,857 KB)
[v2] 星期日, 2024 年 4 月 28 日 16:00:01 UTC (4,857 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-02
切换浏览方式为:
cs
cs.CR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号