Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2510.12744

帮助 | 高级搜索

统计学 > 机器学习

arXiv:2510.12744 (stat)
[提交于 2025年10月14日 ]

标题: Softmax门控高斯专家混合模型的混合度树状图:无需模型扫描的一致性

标题: Dendrograms of Mixing Measures for Softmax-Gated Gaussian Mixture of Experts: Consistency without Model Sweeps

Authors:Do Tien Hai, Trung Nguyen Mai, TrungTin Nguyen, Nhat Ho, Binh T. Nguyen, Christopher Drovandi
摘要: 我们开发了一个统一的统计框架,用于softmax门控高斯专家混合模型(SGMoE),解决了参数估计和模型选择中的三个长期障碍:(i) 门控参数在共同平移下的不可识别性,(ii) 内在的门控-专家相互作用导致似然中的耦合微分关系,以及(iii) softmax引起的条件密度中的紧密分子分母耦合。 我们的方法引入了与门控划分几何对齐的Voronoi型损失函数,并建立了最大似然估计量(MLE)的有限样本收敛速率。 在过参数化模型中,我们揭示了MLE的收敛速率与关联多项式方程组可解性的联系,这些方程组表征了接近不可识别的方向。 对于模型选择,我们将混合测度的树状图适应于SGMoE,得到一个一致的、无需扫描的专家数量选择器,在过拟合下达到点最优参数速率,同时避免多尺寸训练。 在合成数据上的模拟验证了理论,准确恢复了专家数量,并实现了参数估计的预测速率,同时密切逼近回归函数。 在模型误指的情况下(例如$\epsilon$污染),树状图选择准则具有鲁棒性,恢复了真实的混合成分数量,而Akaike信息准则、贝叶斯信息准则和综合完成似然则随着样本量增加倾向于过度选择。 在干旱响应性状的玉米蛋白质组学数据集上,我们的树状图引导的SGMoE选择了两个专家,揭示了清晰的混合测度层次结构,早期稳定了似然,并产生了可解释的基因型-表型图,优于标准准则,且无需多尺寸训练。
摘要: We develop a unified statistical framework for softmax-gated Gaussian mixture of experts (SGMoE) that addresses three long-standing obstacles in parameter estimation and model selection: (i) non-identifiability of gating parameters up to common translations, (ii) intrinsic gate-expert interactions that induce coupled differential relations in the likelihood, and (iii) the tight numerator-denominator coupling in the softmax-induced conditional density. Our approach introduces Voronoi-type loss functions aligned with the gate-partition geometry and establishes finite-sample convergence rates for the maximum likelihood estimator (MLE). In over-specified models, we reveal a link between the MLE's convergence rate and the solvability of an associated system of polynomial equations characterizing near-nonidentifiable directions. For model selection, we adapt dendrograms of mixing measures to SGMoE, yielding a consistent, sweep-free selector of the number of experts that attains pointwise-optimal parameter rates under overfitting while avoiding multi-size training. Simulations on synthetic data corroborate the theory, accurately recovering the expert count and achieving the predicted rates for parameter estimation while closely approximating the regression function. Under model misspecification (e.g., $\epsilon$-contamination), the dendrogram selection criterion is robust, recovering the true number of mixture components, while the Akaike information criterion, the Bayesian information criterion, and the integrated completed likelihood tend to overselect as sample size grows. On a maize proteomics dataset of drought-responsive traits, our dendrogram-guided SGMoE selects two experts, exposes a clear mixing-measure hierarchy, stabilizes the likelihood early, and yields interpretable genotype-phenotype maps, outperforming standard criteria without multi-size training.
评论: 杜天海、阮忠元梅和阮忠tin是否为共同第一作者
主题: 机器学习 (stat.ML) ; 机器学习 (cs.LG); 统计理论 (math.ST); 计算 (stat.CO); 方法论 (stat.ME)
引用方式: arXiv:2510.12744 [stat.ML]
  (或者 arXiv:2510.12744v1 [stat.ML] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.12744
通过 DataCite 发表的 arXiv DOI

提交历史

来自: TrungTin Nguyen [查看电子邮件]
[v1] 星期二, 2025 年 10 月 14 日 17:23:44 UTC (1,294 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
stat.ML
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.LG
math
math.ST
stat
stat.CO
stat.ME
stat.TH

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号