计算机科学 > 机器学习
[提交于 2021年8月27日
(v1)
,最后修订 2022年2月15日 (此版本, v2)]
标题: FAST-PCA:一种快速且精确的分布式主成分分析算法
标题: FAST-PCA: A Fast and Exact Algorithm for Distributed Principal Component Analysis
摘要: 主成分分析(PCA)是机器学习领域中一种基本的数据预处理工具。 虽然PCA通常被视为一种降维方法,但实际上PCA的目的有两个:降维和不相关特征学习。 此外,现代数据集中的维度和样本量的巨大规模使得集中式PCA解决方案无法使用。 在这方面,本文重新考虑了当数据样本分布在任意连接的网络节点上时的PCA问题。 虽然存在一些分布式PCA的解决方案,但这些方案要么忽略了PCA的不相关特征学习方面,要么通信开销较高,使其效率低下,或者缺乏“精确”或“全局”的收敛保证。 为了解决上述问题,本文提出了一种称为FAST-PCA(快速且精确的分布式PCA)的分布式PCA算法。 该算法在通信方面是高效的,并被证明可以线性且精确地收敛到主成分,从而实现降维以及不相关特征。 这些主张得到了实验结果的进一步支持。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.