摘要
无人机(UnmannedAerialVehicle,UAV)在各种领域中扮演着重要角色,其中路径规划是无人机实现各种应用的一个核心内容,如何高效准确的完成路径规划对于无人机飞行效率及安全性的提升具有重要意义。为适应各种未知且复杂的任务环境,同时满足实时决策的要求,本文提出一种基于深度强化学习的无人机路径规划方法。通过不断使用深度强化学习机制优化无人机的行为策略,使其能够在不同的环境和任务中自主学习并实时规划路径,从而提升路径规划的效率和成功率。本文的主要研究内容如下: 首先,针对无人机未知环境下实时的路径规划问题,采用强化学习中经典算法Q-Learning算法进行求解,定义强化学习中的状态、动作及奖惩函数;在此基础上,通过三种不同的仿真环境,验证Q-Learning算法的有效性。但由于Q-table的限制,Q-Learning算法无法对三维复杂环境进行路径规划。 其次,针对Q-Learning算法无法对三维复杂环境进行路径规划的问题,本文选择采用深度强化学习的方法对三维复杂环境中的无人机进行路径规划。为解决传统DQN算法学习效率低的问题,提出了一种基于DQN的PDN-DQN算法,算法通过引入竞争网络可以更加高效地学习到状态的价值信息和动作的优势信息,实现了复杂环境下更优的无人机动作选择;其次,通过对算法引入噪声项,进一步增强了算法的探索能力并在此基础上,采用优先经验回放机制解决了样本利用率低的问题。最后,对路径规划问题进行建模,定义三维环境下无人机状态空间、动作空间及奖惩函数,采用固定区域内随机生成起点、目标点和障碍物的未知环境,对PDN-DQN、DN-DQN、DQN及DDPG四种算法进行训练。最后在同一环境下进行对比验证,结果表明PDN-DQN较其他算法性能更优,能更好的实现无人机在三维复杂环境中的路径规划。 最后,针对PDN-DQN求解最优路径时,训练次数过多和过于依赖合理奖励机制的问题,引入了人工势场法,采用PDN-DQN与人工势场法结合的方式更新Q值,通过包含先验知识的奖励机制,以便加快算法的收敛速度。最后进行仿真实验,结果表明APPDN-DQN算法可以更好的保证复杂三维环境下无人机路径规划的高效性及安全性,并且收敛速度更快,算法性能更优。 本文通过对未知环境中的无人机路径规划问题进行研究,将改进深度强化学习算法与人工势场法进行结合,保证了无人机在未知环境中的泛化能力、避障能力和路径规划效果,具有一定的研究意义和价值。