面向无人机自主避障导航的深度强化学习算法研究

张运涛¹

扫码查看

作者信息

1. 东南大学
折叠

摘要

随着民用无人机产业的飞速发展，基于视觉的无人机避障导航成为了无人机控制领域中的核心问题，高效安全的无人机自主避障导航算法成为了无人机应用中的关键问题之一，在无人机自主巡航、测绘等应用中有着重要的地位。目前大部分基于视觉信息的无人机避障导航方法主要基于视觉SLAM算法，这些方法通过充足的传感器数据建立精确的场景地图，并通过路径规划算法实现无人机障碍规避与导航，不具有高效性以及自主性。而且随着无人机应用的日趋复杂，无人机的应用场景往往是具有动态性、未知性、复杂性的开放室外环境，基于视觉SLAM的无人机避障导航方法难以高效地建立这些环境的场景地图。本文致力于面向无人机自主避障导航问题的深度强化学习算法研究，旨在克服传统深度强化学习方法在无人机避障导航问题中的局限性，基于深度强化学习技术解决无人机自主避障导航问题，本文的主要内容概括如下： (1)针对传统深度强化学习算法只能应用于单一导航目标的问题，本文把无人机自主避障导航问题建模为目标驱动的马尔可夫决策过程，解决了经典深度强化学习算法需要针对不同的导航目标重新学习策略的问题。此外，本文还设计了一种应用于无人机自主避障导航问题的非稀疏奖励函数，解决深度强化学习策略在稀疏奖励情境下难以收敛的问题。更进一步地，为了利用导航问题的内在特征，本文提出了一种动态相对目标的方法，用动态的相对距离代替全局目标与当前无人机位置，从而达到利用不同导航目标之间共同特征的目的，提高了深度强化学习算法在无人机避障导航问题中的成功率。 (2)针对无人机避障导航环境的部分可测与感知信息有限的问题，本文提出了历史记忆增强的深度强化学习方法。本文设计了一种包含空间记忆与动作记忆的记忆结构，并使用注意力机制对历史信息进行整合处理，从而学习导航问题中的时序依赖关系，增强了在部分可测环境下对无人机状态估计的能力，平衡了强化学习算法在避障策略与导航策略之间的矛盾。此外，本文还结合额外的动作惩罚引导无人机脱离目标与障碍间的困境，提高深度强化学习算法在无人机避障导航问题中的成功率与平均累计奖励。 (3)针对无人机避障导航策略收敛速度慢的问题，本文提出了高斯分布探索增强的深度强化学习算法，并提出了高斯分布探索增强的DQN算法与高斯分布探索增强的离散SAC算法。在高斯分布增强方法中，首先把强化学习中的值函数建模为高斯分布，然后以EM距离为优化指标对值分布信息进行迭代更新，并结合采样的方式实现策略的自动探索。高斯分布增强的深度强化学习算法能够随着训练的进程自动调节分布的方差，解决经典强化学习算法中的探索-利用窘境，从而能够在充分利用现有样本的前提下增强样本的多样性，在提高算法收敛速度的前提下保持或者提高无人机避障导航的成功率。

关键词

无人机/自主避障导航/深度学习/强化学习/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

网络空间安全

导师

吴巍炜

学位年度

2021

学位授予单位

东南大学

语种

中文

中图分类号

段落导航