Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.12140

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2508.12140 (cs)
[提交于 2025年8月16日 ]

标题: 探索医学推理中思维预算的效率前沿:计算资源与推理质量之间的尺度定律

标题: Exploring Efficiency Frontiers of Thinking Budget in Medical Reasoning: Scaling Laws between Computational Resources and Reasoning Quality

Authors:Ziqian Bi, Lu Chen, Junhao Song, Hongying Luo, Enze Ge, Junmin Huang, Tianyang Wang, Keyu Chen, Chia Xin Liang, Zihan Wei, Huafeng Liu, Chunjie Tian, Jibin Guan, Joe Yeong, Yongzhi Xu, Peng Wang, Junfeng Hao
摘要: 本研究首次全面评估了医疗推理任务中的思维预算机制,揭示了计算资源与推理质量之间的基本缩放规律。 我们系统地评估了两个主要模型系列Qwen3(17亿到2350亿参数)和DeepSeek-R1(15亿到700亿参数),覆盖了15个医学数据集,涵盖不同的专业领域和难度等级。 通过控制实验,思维预算范围从零到无限标记,我们建立了对数缩放关系,其中准确率的提升遵循可预测的模式,与思维预算和模型大小有关。 我们的研究结果确定了三个不同的效率区域:高效率(0到256个标记),适用于实时应用;平衡(256到512个标记),为常规临床支持提供最佳成本效益权衡;高精度(超过512个标记),仅适用于关键诊断任务。 值得注意的是,较小的模型在延长思维预算方面表现出不成比例的更大优势,相比大型模型的5%到10%,其改进幅度为15%到20%,这表明思维预算为容量受限的模型提供了更大的相对优势。 特定领域模式明显显现,神经学和胃肠病学比心血管或呼吸医学需要更深层次的推理过程。 Qwen3原生思维预算API与我们为DeepSeek-R1提出的截断方法之间的一致性验证了思维预算概念在不同架构间的通用性。 这些结果确立了思维预算控制作为优化医疗AI系统的关键机制,使动态资源分配与临床需求保持一致,同时保持医疗部署所需的透明度。
摘要: This study presents the first comprehensive evaluation of thinking budget mechanisms in medical reasoning tasks, revealing fundamental scaling laws between computational resources and reasoning quality. We systematically evaluated two major model families, Qwen3 (1.7B to 235B parameters) and DeepSeek-R1 (1.5B to 70B parameters), across 15 medical datasets spanning diverse specialties and difficulty levels. Through controlled experiments with thinking budgets ranging from zero to unlimited tokens, we establish logarithmic scaling relationships where accuracy improvements follow a predictable pattern with both thinking budget and model size. Our findings identify three distinct efficiency regimes: high-efficiency (0 to 256 tokens) suitable for real-time applications, balanced (256 to 512 tokens) offering optimal cost-performance tradeoffs for routine clinical support, and high-accuracy (above 512 tokens) justified only for critical diagnostic tasks. Notably, smaller models demonstrate disproportionately larger benefits from extended thinking, with 15 to 20% improvements compared to 5 to 10% for larger models, suggesting a complementary relationship where thinking budget provides greater relative benefits for capacity-constrained models. Domain-specific patterns emerge clearly, with neurology and gastroenterology requiring significantly deeper reasoning processes than cardiovascular or respiratory medicine. The consistency between Qwen3 native thinking budget API and our proposed truncation method for DeepSeek-R1 validates the generalizability of thinking budget concepts across architectures. These results establish thinking budget control as a critical mechanism for optimizing medical AI systems, enabling dynamic resource allocation aligned with clinical needs while maintaining the transparency essential for healthcare deployment.
主题: 计算与语言 (cs.CL)
引用方式: arXiv:2508.12140 [cs.CL]
  (或者 arXiv:2508.12140v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.12140
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hongying Luo [查看电子邮件]
[v1] 星期六, 2025 年 8 月 16 日 19:25:06 UTC (15,577 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号