摘要
无人舰载机通过自动着舰系统在复杂环境下的安全着舰与复飞是决定航母作战效 率的关键问题之一,也是难点所在。复杂环境干扰对舰载机着舰控制的安全性和着舰复 飞决策所需的实时性和准确性产生影响。为满足航母作战体系的智能化、无人化需求, 发挥智能决策在着舰复飞决策方面的优势,确保无人舰载机自主着舰过程的安全性,对 复杂环境下的无人舰载机自动着舰控制与着舰复飞决策技术展开研究。 针对复杂着舰环境下无人舰载机自动着舰控制的智能化应用问题,设计基于近端策 略优化(Proximal Policy Optimization,PPO)算法的智能着舰控制器,以满足环境干扰 下舰载机着舰的安全性要求。根据舰载机着舰安全要求指标,参考传统着舰控制方法, 设计算法优化所需的基本奖励函数。针对着舰环境影响因素,分析舰尾流环境对着舰安 全性的影响。同时针对航母甲板运动,设计基于长短时记忆网络(Long Short-Term Memory,LSTM)的甲板运动预测方法,并改进甲板运动补偿机制,以实现复杂环境下 的舰载机安全着舰。稳定环境和干扰环境中的仿真实验结果表明,设计的PPO控制器能 够适应环境影响,实现无人舰载机的自主着舰控制,为后续智能复飞决策算法的实现提 供底层支持。 针对风险情况下无人舰载机复飞决策技术的定性边界在决策的准确性和实时性上 存在不足的问题,设计一种基于分层强化学习算法的智能决策方法,以满足无人舰载机 自主着舰与复飞的智能化需求。该方法通过端到端的方式,直接将状态输入转换为具体 的决策与控制输出,不需要定义安全边界或风险等级。该分层智能决策方法结合了半马 尔可夫决策过程与马尔科夫决策过程的特点,将PPO算法应用在Option-Critic(OC)框 架之中,从而得到着舰复飞决策与控制的分层结构。为了降低OC算法分层结构网络的 训练计算负担,将顶层决策策略网络的训练作为重点,底层控制策略网络直接采用预训 练的PPO纵向着舰控制智能体,从而提高分层智能体的训练效率。设计基于课程学习的 阶段式训练方法,实现从单一复飞目标到着舰与复飞双目标决策的训练过程,降低智能 体的训练难度,使智能体的训练过程由易到难,逐层递进,以提高训练效率。同时针对 课程学习所带来的遗忘问题,改进经验回放机制,将第一阶段复飞成功样本经验加入到 回放之中,使智能体在学习着舰目标的同时保持对复飞目标的记忆。综合仿真实验表明, 该算法能够实现无人舰载机的着舰复飞决策以及底层飞行控制,使风险情况下的舰载机 着舰安全得到保障。