计算机科学 > 人工智能
[提交于 2025年8月26日
]
标题: 通过置信度估计的电子健康记录可信代理
标题: Trustworthy Agents for Electronic Health Records through Confidence Estimation
摘要: 大型语言模型(LLMs)在从电子健康记录(EHR)中提取信息和支持临床决策方面显示出前景。 然而,在临床环境中部署面临由于幻觉风险带来的挑战。 我们提出了Hallucination Controlled Accuracy at k%(HCAcc@k%),一种新型指标,用于量化不同置信度阈值下的准确性-可靠性权衡。 我们引入了TrustEHRAgent,一个具有置信度意识的代理,结合逐步置信度估计来进行临床问题回答。 在MIMIC-III和eICU数据集上的实验表明,TrustEHRAgent在严格的可靠性约束下优于基线方法,在HCAcc@70%时分别实现了44.23%p和25.34%p的提升,而基线方法在这些阈值上失败。 这些结果突显了传统准确性指标在评估医疗AI代理方面的局限性。 我们的工作有助于开发可信赖的临床代理,能够在置信度低时提供准确信息或透明地表达不确定性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.