基于强化学习的扑翼飞行机器人控制设计与研究

汪华健¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

近些年来，随着微机电技术、机器人技术、新材料技术和新能源技术的快速发展，对扑翼飞行机器人的研究也逐渐进入快车道，并得到了来自很多国家的关注。相比较传统的飞行方式，扑翼式飞行在能源利用率、灵活性以及伪装性方面都有较大的优势。因此，研发新型的扑翼飞行机器人将是未来飞行器研究的重要方向。与此同时，更智能化、更高效的控制方式的研究也迫切需要。本篇论文主要研究强化学习在扑翼飞行机器人的姿态控制和位置控制方面的应用。首先，本文将从扑翼飞行机器人的系统建模出发，考虑一个六自由度的仿蜂鸟模型作为研究对象，再通过建立合适的坐标系和运动学分析，得到系统的动力学方程。然后再基于仿蜂鸟扑翼飞行机器人的系统动力学方程，引入强化学习的典型框架：Actor-Critic算法进行控制策略的设计，并根据Lyapunov稳定性理论证明了系统的稳定性。鉴于神经网络在处理不确定性和非线性方面的良好特性，神经网络被用于搭建Actor网络和Critic网络，并且基于Actor网络设计了强化学习控制器。其中Actor神经网络用于实现对连续策略空间的逼近，Critic神经网络则用于实现对值函数的逼近。此外，PD控制器被设计用于和强化学习控制器进行比较，并通过MATLAB仿真平台进行了控制器可行性和控制效果的验证。此外，本文还对扑翼飞行机器人的姿态运动和位置运动分别进行了研究。对于姿态运动，系统模型是未知的，因此通过引入神经网络来处理系统的不确定性，同时考虑系统状态变量全部已知和部分已知两种情况，分别设计全状态反馈神经网络控制器和输出反馈神经网络控制器来实现对姿态运动的控制。对于位置运动，系统模型是已知的，因此设计基于模型的控制器来实现对位置运动的控制。系统的稳定性和控制器的可行性和控制效果分别通过Lyapunov理论和MATLAB仿真平台得到了验证。

关键词

扑翼飞行机器人/姿态控制/位置控制/强化学习

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

贺威

学位年度

2019

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航