Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.00644v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2501.00644v1 (cs)
[提交于 2024年12月31日 ]

标题: 使用大型语言模型进行临床笔记的高效标准化

标题: Efficient Standardization of Clinical Notes using Large Language Models

Authors:Daniel B. Hier, Michael D. Carrithers, Thanh Son Do, Tayo Obafemi-Ajayi
摘要: 临床医生的笔记是患者信息的丰富来源,但由于不同的书写风格、口语表达、缩写、医学术语、语法错误和非标准格式,常常包含不一致之处。 这些不一致之处阻碍了从电子健康记录(EHR)中提取有意义的数据,对质量改进、人群健康、精准医学、决策支持和研究构成了挑战。 我们提出了一种大型语言模型方法,用于标准化1,618份临床笔记的语料库。 标准化平均纠正了$4.9 +/- 1.8$个语法错误,$3.3 +/- 5.2$个拼写错误,将$3.1 +/- 3.0$个非标准术语转换为标准术语,并每篇笔记扩展了$15.8 +/- 9.1$个缩写和首字母缩略词。 此外,笔记被重新组织成具有标准化标题的规范部分。 这一过程使笔记适用于关键概念提取、映射到医学本体论以及转换为可互操作的数据格式,如FHIR。 随机抽样的笔记专家评审未发现标准化后有显著的数据丢失。 这项概念验证研究证明,临床笔记的标准化可以提高其可读性、一致性和可用性,同时也有助于将其转换为可互操作的数据格式。
摘要: Clinician notes are a rich source of patient information but often contain inconsistencies due to varied writing styles, colloquialisms, abbreviations, medical jargon, grammatical errors, and non-standard formatting. These inconsistencies hinder the extraction of meaningful data from electronic health records (EHRs), posing challenges for quality improvement, population health, precision medicine, decision support, and research. We present a large language model approach to standardizing a corpus of 1,618 clinical notes. Standardization corrected an average of $4.9 +/- 1.8$ grammatical errors, $3.3 +/- 5.2$ spelling errors, converted $3.1 +/- 3.0$ non-standard terms to standard terminology, and expanded $15.8 +/- 9.1$ abbreviations and acronyms per note. Additionally, notes were re-organized into canonical sections with standardized headings. This process prepared notes for key concept extraction, mapping to medical ontologies, and conversion to interoperable data formats such as FHIR. Expert review of randomly sampled notes found no significant data loss after standardization. This proof-of-concept study demonstrates that standardization of clinical notes can improve their readability, consistency, and usability, while also facilitating their conversion into interoperable data formats.
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI)
MSC 类: 92
ACM 类: J.3; I.2
引用方式: arXiv:2501.00644 [cs.CL]
  (或者 arXiv:2501.00644v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.00644
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Daniel Hier [查看电子邮件]
[v1] 星期二, 2024 年 12 月 31 日 20:52:40 UTC (1,488 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.AI

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号