计算机科学 > 机器学习
[提交于 2023年2月3日
]
标题: 基于分布约束的强化学习在供应链优化中的应用
标题: Distributional constrained reinforcement learning for supply chain optimization
摘要: 这项工作研究了在受约束的多周期供应链背景下强化学习(RL)的问题,例如生产与库存方面的约束。我们引入了分布约束策略优化(DCPO),这是一种用于强化学习中可靠约束满足的新方法。我们的方法基于约束策略优化(CPO),但由于近似误差,在实践中会导致其收敛到不可行的策略。我们通过将分布强化学习的方面纳入DCPO来解决这一问题。具体来说,我们使用输出离散分布的神经网络来表示回报和成本价值函数,并根据相关置信度重塑成本。通过一个供应链案例研究,我们展示了DCPO能够提高强化学习策略的收敛速度,并在训练结束时确保可靠的约束满足。所提出的方法还提高了可预测性,大大减少了运行之间的回报方差;这一结果在策略梯度方法的背景下具有重要意义,因为这些方法在训练过程中固有地引入了较大的方差。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.