摘要
智能型自主无人机武器系统是对抗无人机集群攻击的强力武器,无人机平台以实现单个无人机或无人机群体对敌态势最优为目标,以实时运动决策和敌方目标的分配为关键技术。基于多智能体系统的建模与仿真是检验无人机集群系统结构和集群战术的有效手段。以马尔科夫决策过程模型为基础的强化学习,能够解决无人机在不同态势下的序贯决策问题,有助于提升无人机自主能力。论文围绕无人机集群间对抗主题,做以下研究工作: (1)采用多智能体系统建模机制,将单个无人机作为智能体,提出以固定翼无人机凝聚、避障和无人机向敌方目标接近为运动规则,使用无人机运动导航方程描述单个固定翼无人机的运动特性构建无人机集群。为完成两个无人机集群空中对抗建模,借鉴了战斗机空中格斗态势评估方法,应用不同的空战目标分配策略,设计无人机对抗毁伤模型,建立了集群对抗仿真环境并实现仿真。所建立的多智能体环境也能够为强化学习算法的检验和应用提供支持。 (2)应用强化学习算法学习双无人机间追击策略。双无人机追击是基本的集群对抗战术场景,根据此场景建立了双无人机追击决策模型。通过对追击者设置奖励和惩罚,分别应用基于价值迭代的强化学习算法和基于策略梯度的强化学习算法,使追击者在训练过程中学习到实现期望目标的策略。 (3)多个无人机跟踪某无人机以及在数量优势下实现对某无人机目标的追击,是集群对抗中的一个常见战术场景。针对场景中无人机的策略学习问题,分析强化学习算法的设计思路,并实现用基于行动者-评论家框架的多智能体强化学习算法使多个无人机学习到有效的策略。 (4)多个无人机追击多个目标是集群对抗的另一个常见战术场景,分析了该场景中单个无人机状态动作值函数难以估计的原因。为解决状态动作值函数估计难题,采用优势值函数区分不同无人机动作对集体奖励的贡献度,并在动作值函数加入注意力机制,促使单个个体动态注意其他个体状态和动作信息而不是时刻关注所有个体的信息。在构建的多无人机追击环境中,验证了改进后的多智能体强化学习算法的有效性,并检验了智能体数目增加时算法的适应性。