统计学 > 机器学习
[提交于 2018年10月22日
]
标题: 基于贝叶斯多领域学习的癌症亚型发现方法从下一代测序计数数据中
标题: Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data
摘要: 精准医学旨在通过利用最近的基因组规模高通量分析技术,包括下一代测序(NGS),实现个性化的预后和治疗。 然而,将NGS数据进行转换面临几个挑战。 首先,NGS计数数据通常过度分散,需要适当的建模。 其次,与涉及的分子数量和系统复杂性相比,可用于研究复杂疾病(如癌症)的样本数量通常有限,尤其是在考虑疾病异质性的情况下。 关键问题是,我们是否可以整合所有不同来源或领域中的可用数据,以基于NGS计数数据实现可重复的疾病预后。 在本文中,我们开发了一个贝叶斯多领域学习(BMDL)模型,该模型基于分层负二项式因子分解,从过度分散的计数数据中推导出领域相关的潜在表示,即使某种特定癌症类型的样本数量较少,也能准确进行癌症亚型分类。 来自我们模拟数据和《癌症基因组图谱》(TCGA)的NGS数据集的实验结果表明,BMDL在无需“负面迁移”效应的情况下,具有在有效多领域学习中表现出有前途的潜力,而这种“负面迁移”效应在现有的多任务学习和迁移学习方法中经常出现。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.