基于深度强化学习的AirSim仿真环境下无人机路径规划研究

方璨琦¹

扫码查看

作者信息

1. 华南理工大学
折叠

摘要

近年来，随着无人机技术的快速发展，无人机的应用领域越来越广泛，执行任务的环境也越来越复杂。路径规划算法的好坏会直接影响无人机的工作效率与安全，传统路径规划算法对环境的依赖程度大，计算时效性低，在复杂环境下效果很不稳定，而基于强化学习的算法只需要环境的局部观测就能实现较好的效果。因此，本文设计了基于强化学习的端到端无人机路径规划方法，并从单智能体强化学习与多智能体强化学习两个方向展开研究，主要工作内容如下：针对传统无人机控制算法开发周期长、测试效率低、部署成本高等问题，本文在AirSim无人机仿真平台的基础上，设计构建了一个多无人机仿真环境。该仿真环境基于OpenAI 强化学习环境标准，将无人机的运动过程封装成简单的接口，简化智能体与环境交互的流程，为基于强化学习的无人机路径规划提供训练与测试环境。进一步地，本文通过为环境添加势能奖励函数的方式来缓解奖励稀疏的问题。在单智能体环境下，无人机路径规划时飞行阶段与减速阶段对于速度期望的不同会使智能体无法有效学习静止动作，本文从离散动作空间与连续动作空间两个角度来解决该问题。在离散动作空间中，本文直接为智能体添加静止这一可选择动作，从源头解决问题；在连续动作空间中，本文提出了一种基于假想动作的后视经验回放算法，通过智能体对当前状态下更好动作的想象来辅助训练，使智能体在实际任务中也能学会想象出来的相应行为。除此之外，本文通过使用输入增强的方法，将所有的输入状态都转化成相同物理意义的变量，以提高模型的收敛速度与鲁棒性。在多智能体环境下，虽然使用人工势场法可以取得不错的路径规划效果，但存在容易陷入局部最优以及目标不可达等问题。为此，本文提出了一种改良人工势场法，通过增加作用于速度法线方向的调整力使得无人机具有逃离局部最优的能力，通过设置作用于斥力的调整系数有效降低无人机在目标附近受到的斥力影响。在此基础上，本文设计了基于双重延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic Policy Gradient，TD3)的动态人工势场法及基于人工势场法的多智能体 TD3 算法(Multi-Agent TD3，MATD3)，并使用基于人工势场法的行为克隆方法来确认其网络规模。实验表明，改良人工势场法路径规划的稳定性最强，动态人工势场法可以利用时间维度上的先后顺序来进行冲突消解，MATD3 算法则可以提前利用高度差来消除潜在冲突，规划出的路径曲线平滑自然，且相比于前两种算法分别取得了44%和17%的效率提升。

关键词

无人机/路径规划/深度强化学习/人工势场法/控制策略

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

杨健

学位年度

2023

学位授予单位

华南理工大学

语种

中文

中图分类号

段落导航