摘要
在复杂多变的空中作战环境下,通过人工智能技术快速感知作战环境并生成空战策略,是智能化空战的重点研究方向。无人机具有高度的机动性和灵活性,是未来空中战场的主要作战单位。本研究致力于应用深度强化学习算法训练智能体控制无人机,通过高效的机动方式规避空空导弹,迫使敌方进入近距空战格斗,借助快速机动决策达到优势作战态势,从而实施有效打击。本文旨在探究无人机在空中作战中的应用,通过提高无人机的作战能力,为其在未来空中作战的运用提供技术支撑。主要工作及贡献有: (1)在自主机动决策场景中,结合PPO-Clip算法进行无人机规避单枚导弹技术研究,针对该算法在本环境中难以稳定收敛的问题,本文提出PPO-AIG算法。首先,利用批量优势估计处理优势函数,使得优势值分布在较小的范围内,降低策略更新过程中的方差,加快收敛速度、提高收敛稳定性。其次,对比Tanh激活函数和ReLU激活函数在该环境下的稳定性和训练效果,以获得更好的表现。再次,对奖励值进行标准化缩放,使得奖励值的分布更加平稳,减少极端奖励和过度离散化带来的负面影响。实验结果表明,PPO-AIG算法能够训练出具有快速机动决策的智能体来规避空空导弹,模型的收敛效果有明显提升。 (2)为解决在多枚导弹打击无人机场景,由于导弹数量动态变化导致状态维度信息也随之改变的问题,本文提出了GUPPO方法。首先,借鉴词向量编码的优势,将单枚导弹与智能体构成的态势特征编码为状态单元,对状态单元按照碰撞估计时间进行排序并组合,提出了单元状态序列的特征编码方式,解决了在动态多目标场景中状态输入维度不断变化的问题。其次,利用门控循环单元能够从变长序列数据中提取隐藏特征的特点,对单元状态序列进行特征提取,并用于强化学习。实验结果表明,提出的GUPPO算法可以稳定收敛,能够有效提升无人机在多导弹打击时的规避成功率。 (3)在同时训练无人机博弈双方时,深度强化学习算法可能会陷入局部最优解或产生策略震荡,针对此问题提出了一种进化增强算法。该算法通过结合种群进化算法和深度强化学习算法,将传统的个体交叉变异操作替换为智能体的训练过程,并采用循环对抗机制提高智能体的鲁棒性及泛化能力。在近距离空战格斗场景的实验结果表明,该算法能够持续提高智能体的决策能力,快速达到并保持优势进攻态势,实施有效打击。 (4)为进一步提升智能体在空战对抗环境中的训练效能,构建了一套分布式智能空战对抗仿真系统。该系统采用客户端服务器模型架构,使得仿真平台能够提供更好的安全性及可扩展性,提高系统性能且易于维护,预留的TCP接口支持与任意编程语言进行交互。该系统还提供了完整的仿真流程,包括设计和构建空战场景、生成和配置作战单位、执行仿真和记录结果等。用户可以通过简单的配置操作,快速搭建想定并进行空战训练。