统计学 > 机器学习
[提交于 2025年10月16日
]
标题: 基于贝叶斯社区检测的可靠数据聚类
标题: Reliable data clustering with Bayesian community detection
摘要: 从神经科学和基因组学到系统生物学和生态学,研究人员依赖于聚类相似性数据来揭示模块结构。 然而广泛使用的聚类方法,如层次聚类、k均值和WGCNA,缺乏合理的模型选择,使其容易受到噪声的影响。 一种常见的解决方法是对相关矩阵表示进行稀疏化以在聚类前去除噪声,但这个额外步骤引入了任意的阈值,可能会扭曲结构并导致不可靠的结果。 为了检测可靠的聚类,我们利用网络科学的最新进展,将稀疏化和聚类与合理的模型选择结合起来。 我们测试了两种贝叶斯社区检测方法,即度校正随机块模型和正则化地图方程,它们都基于最小描述长度原则进行模型选择。 在合成数据中,它们优于传统方法,在高噪声条件下和样本较少的情况下都能检测到植入的聚类。 与WGCNA在基因共表达数据上的结果相比,正则化地图方程能识别出更多稳健且功能一致的基因模块。 我们的结果确立了贝叶斯社区检测作为一种合理且抗噪声的框架,用于在高维数据中揭示跨领域的模块结构。
当前浏览上下文:
stat.ML
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.