定量生物学 > 神经与认知
[提交于 2025年7月9日
]
标题: 量化误差一致性中的不确定性:迈向分类器行为比较的可靠性
标题: Quantifying Uncertainty in Error Consistency: Towards Reliable Behavioral Comparison of Classifiers
摘要: 基准模型是机器学习(ML)研究快速进步的关键因素。 因此,进一步的进步取决于改进基准测试指标。 衡量机器学习模型与人类观察者行为一致性的标准指标是错误一致性(EC)。 EC比其他指标如准确性等允许更细致的行为比较,并已被用于有影响力的Brain-Score基准中,以根据与人类的行为一致性对不同的DNN进行排名。 以前报告的EC值没有置信区间。 然而,经验测量的EC值通常是噪声的——因此,在没有置信区间的情况下,有效的基准测试结论是有问题的。 在这里,我们从两个方面改进了标准的EC:首先,我们展示了如何使用自助法技术获得EC的置信区间,使我们能够为EC得出显著性检验。 其次,我们提出了一种新的计算模型,将两个分类器之间的EC与其中一个复制另一个响应的隐含概率联系起来。 这种对EC的看法使我们能够就进行足够强大、结论明确的实验所需的试验次数向科学家提供实用指导。 最后,我们使用我们的方法重新审视流行的NeuroAI结果。 我们发现,虽然人类和机器之间行为差异的一般趋势经得起审查,但许多深度视觉模型之间的报告差异在统计上不显著。 我们的方法使研究人员能够设计出充分有力的实验,可以可靠地检测模型之间的行为差异,为更严格的的行为一致性基准测试提供了基础。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.