Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2510.07518

帮助 | 高级搜索

统计学 > 方法论

arXiv:2510.07518 (stat)
[提交于 2025年10月8日 ]

标题: 零膨胀贝叶斯多研究无限非负矩阵分解

标题: Zero-Inflated Bayesian Multi-Study Infinite Non-Negative Matrix Factorization

Authors:Blake Hansen, Dafne Zorzetto, Valeria Edefonti, Roberta De Vito
摘要: 理解饮食模式与健康结果之间的关联,例如癌症风险,对于制定公共卫生指南和设计未来的饮食干预措施至关重要。 然而,饮食摄入数据存在多个统计挑战:它们是高维的,通常稀疏且含有过多的零值,并且由于个体层面的协变量而表现出异质性。 非负矩阵分解(NMF)通常用于估计高维计数数据中的模式,但通常依赖泊松假设,并缺乏充分应对这些复杂性的灵活性。 此外,整合多个研究的数据,例如癌症风险的病例对照研究,需要能够在不同来源之间共享信息的同时保留研究特异性结构的模型。 在本文中,我们引入了一种新颖的贝叶斯NMF模型,该模型(i)联合建模多研究计数数据以实现跨研究的信息共享,(ii)包含一个混合成分以处理零膨胀问题,并(iii)利用灵活的贝叶斯非参数先验来描述由个体协变量引起的模式得分的异质性。 这种结构允许根据饮食特征对个体进行聚类,从而进行下游与健康结果的关联分析。 通过广泛的模拟研究,我们证明与现有的贝叶斯NMF方法相比,我们的模型显著提高了估计准确性。 我们进一步通过在饮食与上呼吸道和消化道癌症的多个病例对照研究中的应用,展示了其适用性,识别出具有营养意义的饮食模式。 一个实现我们方法的R包可在https://github.com/blhansen/ZIMultiStudyNMF获取。
摘要: Understanding the association between dietary patterns and health outcomes, such as the cancer risk, is crucial to inform public health guidelines and shaping future dietary interventions. However, dietary intake data present several statistical challenges: they are high-dimensional, often sparse with excess zeros, and exhibit heterogeneity driven by individual-level covariates. Non-Negative Matrix Factorization (NMF), commonly used to estimate patterns in high-dimensional count data, typically relies on Poisson assumptions and lacks the flexibility to fully address these complexities. Additionally, integrating data across multiple studies, such as case-control studies on cancer risk, requires models that can share information across sources while preserving study-specific structure. In this paper, we introduce a novel Bayesian NMF model that (i) jointly models multi-study count data to enable cross-study information sharing, (ii) incorporate a mixture component to account for zero inflation, and (iii) leverage flexible Bayesian non-parametric priors for characterizing the heterogeneity in pattern scores induced by the individual covariates. This structure allows for clustering of individuals based on dietary profiles, enabling downstream association analyses with health outcomes. Through extensive simulation studies, we demonstrate that our model significantly improves estimation accuracy compared to existing Bayesian NMF methods. We further illustrate its utility through an application to multiple case-control studies on diet and upper aero-digestive tract cancers, identifying nutritionally meaningful dietary patterns. An R package implementing our approach is available at https://github.com/blhansen/ZIMultiStudyNMF.
主题: 方法论 (stat.ME) ; 应用 (stat.AP)
引用方式: arXiv:2510.07518 [stat.ME]
  (或者 arXiv:2510.07518v1 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.07518
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Blake Hansen [查看电子邮件]
[v1] 星期三, 2025 年 10 月 8 日 20:30:27 UTC (2,627 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
stat
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
stat.AP
stat.ME

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号