计算机科学 > 机器学习
[提交于 2020年3月12日
]
标题: 在易失性实例上的机器学习
标题: Machine Learning on Volatile Instances
摘要: 由于当前机器学习中使用的神经网络模型和训练数据集规模庞大,必须通过将梯度评估等任务分配到多个工作节点上来分布式地执行随机梯步下降(SGD)。 然而,运行分布式SGD可能非常昂贵,因为它可能需要长时间使用GPU等专用计算资源。 我们提出了成本效益高的策略,以利用比标准实例更便宜但可能被更高优先级的工作负载中断的易失性云实例。 据我们所知,这项工作是第一个量化主动工作节点数量的变化(由于抢占)对SGD收敛和训练时间影响的研究。 通过理解实例抢占概率、准确性和训练时间之间的权衡,我们能够推导出在易失性实例(如Amazon EC2 spot实例和其他可抢占云实例)上配置分布式SGD作业的实用策略。 实验结果表明,我们的策略在显著降低成本的情况下实现了良好的训练性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.