统计学 > 机器学习
[提交于 2025年7月29日
]
标题: 堆叠的SVD还是SVD堆叠? 数据整合的随机矩阵理论视角
标题: Stacked SVD or SVD stacked? A Random Matrix Theory perspective on data integration
摘要: 现代数据分析越来越需要在多个高维数据集之间识别共享的潜在结构。 一种常用模型假设数据矩阵是具有共享奇异子空间的低秩矩阵的噪声观测值。 在这种情况下,已经出现了两种主要方法来估计这种共享结构,它们在如何整合不同数据集的信息方面有所不同。 第一种方法称为Stack-SVD,将所有数据集拼接在一起,然后进行奇异值分解(SVD)。 第二种方法称为SVD-Stack,首先对每个数据集分别进行SVD,然后汇总这些数据集中的顶部奇异向量,并最终计算它们的一致性。 尽管这些方法被广泛使用,但在比例渐近 regime 中尚未得到严格研究,而这一 regime 在当今数据规模和维度不断增加的背景下具有重要的实际意义。 缺乏理论理解导致在选择哪种方法上存在不确定性,并限制了充分挖掘其潜力的能力。 为了解决这些挑战,我们推导了这两种方法的渐近性能和相变的精确表达式,并开发了最优加权方案以进一步改进这两种方法。 我们的分析表明,在未加权的情况下,这两种方法并不总是相互占优,但最优加权的Stack-SVD优于最优加权的SVD-Stack。 我们将分析扩展到适应多个共享成分,并提供了从数据中估计最优权重的实用算法,为实际数据整合问题中的方法选择提供了理论指导。 在基因组数据上的大量数值模拟和半合成实验验证了我们的理论结果。
当前浏览上下文:
stat.TH
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.