计算机科学 > 人工智能
[提交于 2024年6月4日
(v1)
,最后修订 2025年2月15日 (此版本, v2)]
标题: 加快供应链强化学习中的策略模拟
标题: Speeding up Policy Simulation in Supply Chain RL
摘要: 在某种状态依赖策略下对动力系统进行单个轨迹的模拟是策略优化(PO)算法的核心瓶颈。 在单次模拟中必须执行的许多本质上串行的策略评估构成了这一瓶颈的主要部分。 在将PO应用于供应链优化(SCO)问题时,模拟对应于供应链一个月的一个样本路径可能需要几个小时。 我们提出了一种迭代算法来加速策略模拟,称为皮卡德迭代。 该方案仔细地将策略评估任务分配给独立的进程。 在一个迭代中,任何给定的进程仅在其分配的任务上评估策略,同时假设其他任务的“缓存”评估;缓存在迭代结束时更新。 在GPU上实现此方案,允许在单个轨迹上批量评估策略。 我们证明了SCO问题所具有的结构使得迭代次数较少即可收敛,且与时间范围无关。 我们在大规模SCO问题上实现了400倍的实际加速,即使只使用一个GPU,还在其他强化学习环境中展示了实际有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.