Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2003.01283v1

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2003.01283v1 (cs)
[提交于 2020年3月3日 ]

标题: 基于MPC的神经网络策略模仿学习用于人工胰腺

标题: MPC-guided Imitation Learning of Neural Network Policies for the Artificial Pancreas

Authors:Hongkai Chen, Nicola Paoletti, Scott A. Smolka, Shan Lin
摘要: 尽管模型预测控制(MPC)目前是人工胰腺(AP)中胰岛素控制的主要算法,但它通常需要复杂的在线优化,这对于资源受限的医疗设备来说是不可行的。 MPC通常依赖于状态估计,这是一个容易出错的过程。 在本文中,我们介绍了一种新的AP控制方法,该方法使用模仿学习从MPC计算的示范中合成神经网络胰岛素策略。 这种策略计算效率高,并且通过在训练时用完整的状态信息对MPC进行操作,它们可以直接将测量值映射到最优治疗决策,从而绕过状态估计。 我们通过蒙特卡洛Dropout进行贝叶斯推断来学习策略,这使我们能够量化预测不确定性,并由此得出更安全的治疗决策。 我们证明了在特定患者模型下训练的控制策略可以很好地推广(在模型参数和扰动分布方面)到患者群体,始终优于具有状态估计的传统MPC。
摘要: Even though model predictive control (MPC) is currently the main algorithm for insulin control in the artificial pancreas (AP), it usually requires complex online optimizations, which are infeasible for resource-constrained medical devices. MPC also typically relies on state estimation, an error-prone process. In this paper, we introduce a novel approach to AP control that uses Imitation Learning to synthesize neural-network insulin policies from MPC-computed demonstrations. Such policies are computationally efficient and, by instrumenting MPC at training time with full state information, they can directly map measurements into optimal therapy decisions, thus bypassing state estimation. We apply Bayesian inference via Monte Carlo Dropout to learn policies, which allows us to quantify prediction uncertainty and thereby derive safer therapy decisions. We show that our control policies trained under a specific patient model readily generalize (in terms of model parameters and disturbance distributions) to patient cohorts, consistently outperforming traditional MPC with state estimation.
主题: 机器学习 (cs.LG) ; 系统与控制 (eess.SY); 机器学习 (stat.ML)
引用方式: arXiv:2003.01283 [cs.LG]
  (或者 arXiv:2003.01283v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2003.01283
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hongkai Chen [查看电子邮件]
[v1] 星期二, 2020 年 3 月 3 日 01:25:45 UTC (766 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2020-03
切换浏览方式为:
cs
cs.SY
eess
eess.SY
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号