Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2506.16295

帮助 | 高级搜索

统计学 > 计算

arXiv:2506.16295 (stat)
[提交于 2025年6月19日 ]

标题: 理解贝叶斯聚类分析中的不确定性

标题: Understanding uncertainty in Bayesian cluster analysis

Authors:Cecilia Balocchi, Sara Wade
摘要: 基于贝叶斯方法的聚类通常因其能够提供分区结构中的不确定性而受到赞赏。然而,由于聚类空间具有离散、无序且维度巨大的特性,总结聚类结构的后验分布可能具有挑战性。尽管最近的进展提供了单一的聚类估计来表示后验分布,但在后验分布呈现多模态的情况下,这种做法会忽略不确定性,甚至可能是不具代表性的。为了增强我们对不确定性的理解,我们提出了一个用于贝叶斯聚类的WASserstein近似(WASABI),它通过多个而非单一的聚类估计来总结后验样本,每个估计对应于接收大量后验质量的分区空间的不同部分。具体来说,我们通过在分区空间上配备适当的度量,在Wasserstein距离的意义下逼近后验分布,从而找到这些聚类估计。一个有趣的副产品是,可以通过在分区空间上使用类似于k-medoids的算法将后验样本划分为不同的组,每组由其中一个聚类估计表示。利用合成数据集和真实数据集,我们展示了我们的方法有助于提高对不确定性的理解,特别是在数据聚类不完全分离或所采用模型设定错误的情况下。
摘要: The Bayesian approach to clustering is often appreciated for its ability to provide uncertainty in the partition structure. However, summarizing the posterior distribution over the clustering structure can be challenging, due the discrete, unordered nature and massive dimension of the space. While recent advancements provide a single clustering estimate to represent the posterior, this ignores uncertainty and may even be unrepresentative in instances where the posterior is multimodal. To enhance our understanding of uncertainty, we propose a WASserstein Approximation for Bayesian clusterIng (WASABI), which summarizes the posterior samples with not one, but multiple clustering estimates, each corresponding to a different part of the space of partitions that receives substantial posterior mass. Specifically, we find such clustering estimates by approximating the posterior distribution in a Wasserstein distance sense, equipped with a suitable metric on the partition space. An interesting byproduct is that a locally optimal solution to this problem can be found using a k-medoids-like algorithm on the partition space to divide the posterior samples into different groups, each represented by one of the clustering estimates. Using both synthetic and real datasets, we show that our proposal helps to improve the understanding of uncertainty, particularly when the data clusters are not well separated or when the employed model is misspecified.
主题: 计算 (stat.CO)
引用方式: arXiv:2506.16295 [stat.CO]
  (或者 arXiv:2506.16295v1 [stat.CO] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.16295
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sara Wade [查看电子邮件]
[v1] 星期四, 2025 年 6 月 19 日 13:13:27 UTC (11,217 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
stat.CO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号