计算机工程与设计2024,Vol.45Issue(10) :3128-3135.DOI:10.16208/j.issn1000-7024.2024.10.032

基于强化学习的自动化物料运输系统调度策略

Scheduling strategy based on reinforcement learning of automatic material handling system

蔡伟星 徐方 张雷 邹风山 刘明敏
计算机工程与设计2024,Vol.45Issue(10) :3128-3135.DOI:10.16208/j.issn1000-7024.2024.10.032

基于强化学习的自动化物料运输系统调度策略

Scheduling strategy based on reinforcement learning of automatic material handling system

蔡伟星 1徐方 2张雷 2邹风山 2刘明敏2
扫码查看

作者信息

  • 1. 中国科学院沈阳自动化研究所机器人学国家重点实验室,辽宁沈阳 110016;中国科学院机器人与智能制造创新研究院,辽宁沈阳 110169;中国科学院大学,北京 100049
  • 2. 中国科学院沈阳自动化研究所机器人学国家重点实验室,辽宁沈阳 110016;中国科学院机器人与智能制造创新研究院,辽宁沈阳 110169;沈阳新松机器人自动化股份有限公司,辽宁沈阳 110168
  • 折叠

摘要

为提高自动化物料运输系统生产运输效率,根据晶圆厂的混合式布局建立轨道的图网络模型,提出一种基于强化学习的动态调度策略.将调度过程划分为运输任务指派与运输路径规划两个阶段.任务指派使用基于实时交通信息的匈牙利算法求解.将运输路径规划问题表述为路径决策问题,使用基于离线策略的Q-Learning算法与玻尔兹曼探索策略构建的强化模型来求解路径决策问题.实验结果表明,所提方法可以有效提高自动化物料运输系统运输效率.

Abstract

To improve the production and transportation efficiency of the automatic material handling system,a graph network model of tracks was established according to the hybrid layout,and a dynamic scheduling policy based on reinforcement learning was proposed.The scheduling process consisted of two stages,the transportation task assignment and the transportation path planning.The task assignment was solved using Hungary algorithm based on real-time traffic information.The transportation path planning problem was formulated as the path decision problem.A reinforcement learning model based on Q-Learning(off policy)and Boltzmann exploration strategy was used to solve path decision problem.The final experimental results show that the proposed policy can improve the production and transportation efficiency of the automatic material handling system.

关键词

自动化物料运输系统/高空提升搬运车/调度/路径决策/强化学习/任务指派/路径规划/交通信息

Key words

automatic material handling system/overhead hoist transport/scheduling/path decision/reinforcement learning/task assignment/path planning/traffic information

引用本文复制引用

出版年

2024
计算机工程与设计
中国航天科工集团二院706所

计算机工程与设计

CSTPCD北大核心
影响因子:0.617
ISSN:1000-7024
段落导航相关论文