基于强化学习的无人机激进飞行与动态避障问题研究

房金宝¹

扫码查看

作者信息

1. 华东理工大学
折叠

摘要

近年来，无人机因其灵活轻便等特点，被广泛应用于众多领域中。然而，由于无人机自身系统模型的复杂性，以及复杂动态环境的干扰造成的模型不确定性，无人机的导航与控制任务仍面临着许多挑战。无模型的强化学习方法可以在不依赖准确的系统模型的条件下生成有效的导航策略，因而在智能体导航问题中得到了广泛的应用。然而，在环境复杂动态、无人机高速飞行的导航问题中，原有的无模型强化学习方法存在着训练收敛缓慢、策略在实际环境中的迁移性差以及策略对动态环境感知能力弱等问题。此外，强化学习策略在实际无人机平台上的运行部署也存在着一定的难度。因此，本文针对存在上述挑战的无人机激进飞行问题和动态避障问题，首先对模型已知条件下的导航方法进行了研究，并完成了实际平台实验的准备工作，然后基于无模型强化学习方法，对上述问题展开了进一步的深入研究。本文的主要研究内容具体如下: (1)针对系统模型已知的无人机激进飞行与避障问题，分别使用基于轨迹跟踪和视觉伺服的导航与控制方法进行了研究。具体地，通过基于模型的轨迹规划、轨迹跟踪和目标识别等方法，解决了模型已知条件下的上述问题，并在室内和室外的实际无人机平台上设计了相关实验，确定了实际无人机实验的基本方法，为接下来强化学习策略在实际无人机平台上的运行部署提供了实验基础。 (2)针对系统模型未知的无人机激进飞行问题，提出了一种基于无模型强化学习的无人机控制方法。首先，为了提高无模型强化学习方法的训练收敛速度，设计了基于相似度的好奇心模块，鼓励智能体获取更多的有效样本并改善了强化学习中的稀疏奖励现象。然后，使用分支结构探索方法提升了策略在实际场景中的迁移性，增强了仿真环境中训练的策略在实际实验中的适用性。最后进行了仿真与实际实验设计，使用强化学习方法完成了模拟场景和实际环境中的无人机激进飞行任务。 (3)针对系统模型未知的无人机动态避障问题，提出了一种基于无模型深度强化学习的动态环境无人机视觉导航方法。首先，为了提高动态环境下序列数据的训练收敛速度，改进了传统的经验回放方法并提出了扩展的序列数据经验回放策略。然后，使用ConvLSTM模块对经验序列中的动态关联信息进行提取与存储。在此基础上，提出了一种基于经验共享的并行强化学习结构，提高了强化学习的训练效率。最终通过这一基于序列数据的深度强化学习方法，完成了无人机视觉动态避障任务。

关键词

强化学习/无人机/激进飞行/视觉导航/动态避障

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

唐漾

学位年度

2021

学位授予单位

华东理工大学

语种

中文

中图分类号

段落导航