计算机科学 > 人工智能
[提交于 2024年6月11日
]
标题: 超越训练:通过自适应动作采样优化基于强化学习的车间调度
标题: Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling
摘要: 基于学习的调度问题构造启发式方法近年来已变得与传统求解器和启发式方法越来越具有竞争力。 特别是,使用深度强化学习(DRL)的解决方案方法取得了显著改进。 虽然已经投入了大量精力来设计网络架构和训练算法以实现最先进的结果,但很少有研究探讨在推理过程中最优地使用训练好的DRL代理。 我们的工作基于一个假设,即类似于搜索算法,训练好的DRL代理的使用应取决于可接受的计算预算。 我们提出了一种简单而有效的参数化方法,称为$\delta$-sampling,它通过操纵训练好的动作向量,在解决方案构建过程中使代理行为偏向探索或利用。 通过遵循这种方法,我们可以在仍然生成可接受数量的解决方案的同时,更全面地覆盖搜索空间。 此外,我们提出了一种算法,用于获得给定数量的解决方案和任何训练好的代理的最佳参数化方法。 实验扩展了现有作业车间调度问题的训练协议,并使用我们的推理方法验证了我们的假设,并导致生成的解决方案出现预期的改进。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.