计算机科学 > 数据库
[提交于 2025年11月2日
]
标题: 在环境约束下通过大型语言模型可靠地整理电子健康记录数据集
标题: Reliable Curation of EHR Dataset via Large Language Models under Environmental Constraints
摘要: 电子健康记录(EHRs)是现代医疗保健和研究的核心;然而,许多研究人员缺乏编写复杂SQL查询或生成有效可视化所需的数据库专业知识,这限制了数据的有效使用和科学发现。 为解决这一障碍,我们引入CELEC,这是一个基于大型语言模型(LLM)的自动化EHR数据提取和分析框架。 CELEC使用一种集成模式信息、少量示例和思维链推理的提示策略,将自然语言查询转换为SQL,这三者共同提高了准确性和鲁棒性。 在EHRSQL基准的一个子集上,CELEC的执行准确性与先前系统相当,同时通过仅向LLM暴露数据库元数据来保持低延迟、成本效率和严格的隐私保护。 CELEC还遵循严格的隐私协议:LLM仅访问数据库元数据(例如,表名和列名),而所有查询执行都在机构环境中安全进行,确保没有任何患者级别的数据被传输到或与LLM共享。 消融研究表明,SQL生成管道的每个组件,尤其是少量示例,在性能中起着关键作用。 通过降低技术障碍并使医学研究人员能够直接查询EHR数据库,CELEC简化了研究流程并加速了生物医学发现。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.