Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2406.06474

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2406.06474 (cs)
[提交于 2024年6月10日 ]

标题: 迈向个人健康大型语言模型

标题: Towards a Personal Health Large Language Model

Authors:Justin Cosentino, Anastasiya Belyaeva, Xin Liu, Nicholas A. Furlotte, Zhun Yang, Chace Lee, Erik Schenck, Yojan Patel, Jian Cui, Logan Douglas Schneider, Robby Bryant, Ryan G. Gomes, Allen Jiang, Roy Lee, Yun Liu, Javier Perez, Jameson K. Rogers, Cathy Speed, Shyam Tailor, Megan Walker, Jeffrey Yu, Tim Althoff, Conor Heneghan, John Hernandez, Mark Malhotra, Leor Stern, Yossi Matias, Greg S. Corrado, Shwetak Patel, Shravya Shetty, Jiening Zhan, Shruthi Prabhakara, Daniel McDuff, Cory Y. McLean
摘要: 在健康领域,大多数大型语言模型(LLM)的研究集中在临床任务上。然而,移动设备和可穿戴设备很少被整合到这些任务中,它们为个人健康监测提供了丰富的纵向数据。在这里,我们介绍了个性化健康大型语言模型(PH-LLM),该模型基于Gemini进行微调,以理解和推理数值时间序列的个人健康数据。我们创建并整理了三个数据集,用于测试1)从睡眠模式、身体活动和生理反应中生成个性化见解和建议,2)专家领域知识,以及3)预测自我报告的睡眠结果。对于第一个任务,我们与领域专家合作设计了857个案例研究,以评估睡眠和健身中的现实场景。通过全面评估领域特定的评分标准,我们观察到Gemini Ultra 1.0和PH-LLM在健身方面与专家表现没有统计学差异,而专家在睡眠方面仍然占优,但对PH-LLM进行微调显著提高了使用相关领域知识和为睡眠见解个性化信息的能力。我们使用多项选择睡眠医学和健身考试评估了PH-LLM的领域知识。PH-LLM在睡眠方面得分为79%,在健身方面得分为88%,超过了人类专家样本的平均分数。最后,我们训练PH-LLM从可穿戴数据的文本和多模态编码表示中预测自我报告的睡眠质量结果,并证明多模态编码是匹配专用判别模型性能所必需的。尽管在安全关键的个人健康领域需要进一步的发展和评估,但这些结果展示了Gemini模型的广泛知识和能力,以及像PH-LLM所做的那样将生理数据情境化对于个人健康应用的好处。
摘要: In health, most large language model (LLM) research has focused on clinical tasks. However, mobile and wearable devices, which are rarely integrated into such tasks, provide rich, longitudinal data for personal health monitoring. Here we present Personal Health Large Language Model (PH-LLM), fine-tuned from Gemini for understanding and reasoning over numerical time-series personal health data. We created and curated three datasets that test 1) production of personalized insights and recommendations from sleep patterns, physical activity, and physiological responses, 2) expert domain knowledge, and 3) prediction of self-reported sleep outcomes. For the first task we designed 857 case studies in collaboration with domain experts to assess real-world scenarios in sleep and fitness. Through comprehensive evaluation of domain-specific rubrics, we observed that Gemini Ultra 1.0 and PH-LLM are not statistically different from expert performance in fitness and, while experts remain superior for sleep, fine-tuning PH-LLM provided significant improvements in using relevant domain knowledge and personalizing information for sleep insights. We evaluated PH-LLM domain knowledge using multiple choice sleep medicine and fitness examinations. PH-LLM achieved 79% on sleep and 88% on fitness, exceeding average scores from a sample of human experts. Finally, we trained PH-LLM to predict self-reported sleep quality outcomes from textual and multimodal encoding representations of wearable data, and demonstrate that multimodal encoding is required to match performance of specialized discriminative models. Although further development and evaluation are necessary in the safety-critical personal health domain, these results demonstrate both the broad knowledge and capabilities of Gemini models and the benefit of contextualizing physiological data for personal health applications as done with PH-LLM.
评论: 72页
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL)
引用方式: arXiv:2406.06474 [cs.AI]
  (或者 arXiv:2406.06474v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2406.06474
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Justin Cosentino [查看电子邮件]
[v1] 星期一, 2024 年 6 月 10 日 17:16:49 UTC (3,752 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-06
切换浏览方式为:
cs
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号