统计学 > 方法论
[提交于 2025年6月25日
]
标题: 有缺陷计数数据的推断:二项卷积框架下的估计
标题: Inference for Error-Prone Count Data: Estimation under a Binomial Convolution Framework
摘要: 计数数据中的测量误差很常见,但在文献中研究不足,特别是在观察到的分数有界且来自离散评分过程的背景下。 受口腔阅读流利度评估应用的启发,我们提出了一种二项卷积框架,该框架将二元错误分类模型扩展到仅观察到正确响应总数的设置中,并且误差可能涉及对事件数量的高估和低估。 该模型能够适应不同的真正阳性准确率和真正阴性准确率,并保持数据的有界性质。 假设在部分项目上可以获得污染和无误差的分数,我们开发并比较了三种估计策略:最大似然估计(MLE)、线性回归和广义矩方法(GMM)。 大量模拟结果显示,当模型正确指定时,MLE最为准确,但计算量大且对模型误设不稳健。 回归方法简单且稳定,但精度较低,而GMM在模型依赖性方面提供了折中方案,尽管它对异常值敏感。 在实践中,该框架支持在无监督设置中的改进推断,其中污染分数作为下游分析的输入。 通过量化准确率,即使尚未定义特定结果,该模型也能实现分数校正。 我们使用真实的口腔阅读流利度数据演示了其效用,并比较了人工和AI生成的分数。 研究结果突显了估计器选择的实际意义,并强调了在计数数据中明确建模不对称测量误差的重要性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.