基于深度强化学习的移动机器人路径规划策略研究

徐全兴¹

扫码查看

作者信息

1. 燕山大学
折叠

摘要

移动机器人被广泛应用于日常生活中，而自主导航则是其核心技术，路径规划作为自主导航的重点一直以来都是研究热点。目前，移动机器人的工作环境复杂且多变，路径规划任务不仅要应对多个静态障碍物，还要应对一些未知的动态障碍物。传统意义上的路径规划算法因其局限性很难满足复杂环境下的路径规划任务，近年来随着机器学习，深度学习等理论的发展，强化学习算法被应用于路径规划领域。学者们对强化学习路径规划算法做了大量的改进研究，但仍存在算法收敛速度慢、总航向角较大、成功率低等问题。本文研究了不同地图下，基于深度强化学习的移动机器人路径规划问题。主要研究工作如下：在静态地图中，针对强化学习移动机器人路径规划算法在训练过程中训练时间长收敛速度慢、易发散等问题，提出一种多经验池策略深度确定性策略梯度算法。首先，将经验池分割为多个子经验池，根据相邻状态差值的不同情况将此刻的经验存储在不同的经验池中，加快算法的收敛速度；其次，按照不同比例从各个经验池中采样，使好的经验用于训练神经网络，提高算法的避障能力；最后，基于人工势场法思想，设计引导与排斥奖励函数，通过引导奖励函数，减少了算法的训练时间，利用斥力奖励函数，提升算法的成功率。仿真结果表明，在复杂环境中，成功率提升4%，训练时间减少16%，仿真实验和实际测试验证了算法的有效性。在动态地图中，针对移动机器人对于动态障碍物躲避成功率低、绕行弧度较大、在复杂地图中不易找到目标点等问题，提出一种融合算法引导策略。首先，根据传统的路径规划算法得到全局路径，在全局路径上选取路径指导点作为强化学习训练的指导，加快算法的训练；其次，使用广义维诺图路径规划算法结合其他输出路径指导点，增加算法的成功率并减少绕行角度；最后，通过设定分段奖励函数，解决了复杂地图中找不到目标点问题。仿真结果表明，在只有动态障碍物的地图中成功率提升 4%，绕行角度减少 6.9%，在同时含有动态障碍物与静态障碍物的地图中，成功率提升7%，绕行角度减少10.1%。验证了算法的有效性与优越性。

关键词

移动机器人/路径规划/深度强化学习/多经验池/广义维诺图

引用本文复制引用

授予学位

硕士

学科专业

电子信息（控制工程）

导师

魏立新/吕金

学位年度

2024

学位授予单位

燕山大学

语种

中文

中图分类号

段落导航