计算机科学 > 计算与语言
[提交于 2025年6月23日
]
标题: RWESummary:一种框架和测试方法,用于选择大型语言模型来总结现实世界证据(RWE)研究
标题: RWESummary: A Framework and Test for Choosing Large Language Models to Summarize Real-World Evidence (RWE) Studies
摘要: 大型语言模型(LLMs)已在一般摘要任务以及医学研究辅助方面进行了广泛评估,但尚未专门针对从真实世界证据(RWE)研究的结构化输出中总结真实世界证据的任务进行评估。我们引入了RWESummary,这是MedHELM框架(Bedi, Cui, Fuentes, Unell 等,2025)的一个提议补充,以实现对此任务的LLMs基准测试。RWESummary包括一个场景和三个评估,涵盖了医学研究摘要中观察到的主要类型错误,并使用Atropos Health专有数据开发而成。此外,我们使用RWESummary来比较不同LLMs在我们内部的真实世界证据摘要工具中的性能。在发表时,有13个不同的RWE研究,我们发现Gemini 2.5模型整体表现最佳(包括Flash和Pro版本)。我们建议RWESummary作为真实世界证据研究摘要的一种新颖且有用的基准模型。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.