大规模柔性作业车间调度问题解空间复杂、求解难度高,针对元启发式算法求解大规模柔性作业车间调度模型效率低,启发式规则无优化求解能力的问题,在构建问题模型的基础上,提出采用基于值的深度强化学习算法框架的求解方法.同时考虑到调度问题难以转换为强化学习问题以及规模增大后搜索难度大的问题,通过设计与动作集和奖励函数对应的状态特征、构建敏感动作集、建立回合和单步混合奖励机制将Double Deep Q-Network(DDQN)模型应用于大规模柔性作业车间调度问题.并通过实验验证了所设计的状态特征、动作集以及奖励函数的合理性,及所提框架在求解大规模柔性作业车间调度问题上的优越性.
Large-scale flexible job shop scheduling optimization with DDQN