基于深度强化学习的多AGV动态路径规划研究

严帅华¹

扫码查看

作者信息

1. 中国科学院大学
折叠

摘要

随着工厂自动化水平的提高，柔性制造车间不断朝着大规模、智能化方向发展。自动导引车(AutomatedGuidedVehicle,AGV)作为生产车间主要运输方式之一，高效的路径规划对于提高生产效率、降低生产成本起着至关重要的作用。在多AGV协同作业的场景中，路径规划是一个具有挑战性的问题，需要同时考虑多个AGV之间的冲突避免和动态障碍物的规避。本文采用多智能体强化学习方法，研究了多AGV在动态车间环境中的路径规划问题，包括问题建模、求解算法及其性能优化。由于所研究的问题具有规模大、动态非平稳等特点，本文将动态环境中的多AGV路径规划问题建模为分布式的局部观测马尔可夫决策模型，提出了一种基于多智能体近端策略优化(MultiAgentProximalPolicyOptimization,MAPPO)的多AGV路径规划方法来为多AGV路径规划问题求解更好的解决方案。该方法采用集中式训练分布式执行的训练策略，每台AGV具有一个演员-评论家结构，使用集中式评价器指导每台AGV改善策略，每台AGV使用近端策略优化算法学习独立的路径规划策略，以获得更好的性能。针对路径规划问题具有时间序列特性，设计了一种基于长短时记忆网络的改进观测编码网络，更好地利用历史信息指导AGV做出决策。在实验方面，本文采用了不同规模和复杂度的场景进行仿真验证，并与另外两种流行的多智能体强化学习算法进行比较。结果表明本文所提出的算法在多AGV路径规划问题上具有较好的性能和实用性，验证了模型和算法的有效性和先进性。针对MAPPO算法收敛到最佳策略耗费时间长导致训练效率低的问题，本文设计了一种基于启发式图的全局引导机制，提出了一种基于启发式图的改进MAPPO路径规划算法。该算法为每台AGV生成静态环境的启发式信息图，引导AGV快速探索到目标位置，减少前期了解环境分布的时间，注重于学习与其它AGV和动态障碍物的避碰策略，从而提高算法的性能和实用性。实验结果表明所提出的改进算法能够更快地学习到导航至目标位置的策略，并且能够更好地避免AGV冲突和动态障碍物碰撞。所提出的方法能够保证多AGV之间的安全协同和高效运输，具有较好的实用性和扩展性。

关键词

自动导引车/路径规划/多智能体/强化学习/近端策略优

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

刘意杨

学位年度

2023

学位授予单位

中国科学院大学

语种

中文

中图分类号

段落导航