计算机科学 > 计算与语言
[提交于 2025年8月16日
]
标题: 探索医学推理中思维预算的效率前沿:计算资源与推理质量之间的尺度定律
标题: Exploring Efficiency Frontiers of Thinking Budget in Medical Reasoning: Scaling Laws between Computational Resources and Reasoning Quality
摘要: 本研究首次全面评估了医疗推理任务中的思维预算机制,揭示了计算资源与推理质量之间的基本缩放规律。 我们系统地评估了两个主要模型系列Qwen3(17亿到2350亿参数)和DeepSeek-R1(15亿到700亿参数),覆盖了15个医学数据集,涵盖不同的专业领域和难度等级。 通过控制实验,思维预算范围从零到无限标记,我们建立了对数缩放关系,其中准确率的提升遵循可预测的模式,与思维预算和模型大小有关。 我们的研究结果确定了三个不同的效率区域:高效率(0到256个标记),适用于实时应用;平衡(256到512个标记),为常规临床支持提供最佳成本效益权衡;高精度(超过512个标记),仅适用于关键诊断任务。 值得注意的是,较小的模型在延长思维预算方面表现出不成比例的更大优势,相比大型模型的5%到10%,其改进幅度为15%到20%,这表明思维预算为容量受限的模型提供了更大的相对优势。 特定领域模式明显显现,神经学和胃肠病学比心血管或呼吸医学需要更深层次的推理过程。 Qwen3原生思维预算API与我们为DeepSeek-R1提出的截断方法之间的一致性验证了思维预算概念在不同架构间的通用性。 这些结果确立了思维预算控制作为优化医疗AI系统的关键机制,使动态资源分配与临床需求保持一致,同时保持医疗部署所需的透明度。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.