计算机科学 > 机器学习
[提交于 2025年8月19日
]
标题: 数据集的类型化拓扑结构
标题: Typed Topological Structures Of Datasets
摘要: 一个数据集$X$在$R^2$上是一个有限拓扑空间。 当前对数据集的研究集中在统计方法和代数拓扑方法\cite{carlsson}上。 在\cite{hu}中,引入了类型化拓扑空间的概念,并表明其在研究有限拓扑空间(如数据集)方面具有潜力。 这是一种从一般拓扑学角度出发的新方法。 类型化拓扑空间是其开集被分配了类型的拓扑空间。 拓扑概念和方法可以使用特定类型的开集进行重新定义。 在本文中,我们开发了一组特定的类型及其在数据集$X$上的相关类型化拓扑。 利用它,我们可以研究$X$的内部结构。 特别是,$R^2$有一个自然的商空间,在其中$X$被组织成轨道,每个轨道被分成组件。这些组件是按顺序排列的。此外,它们可以用一个整数序列表示。跨越轨道的组件形成分支,这种关系可以用一种伪树(称为类型-II伪树)很好地表示。这样的结构为解决计算凸包、孔洞、聚类和异常检测等问题提供了平台。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.