基于深度强化学习的无人机机动算法研究与实现

吴冯国¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

在复杂多变的空中作战环境下，通过人工智能技术快速感知作战环境并生成空战策略，是智能化空战的重点研究方向。无人机具有高度的机动性和灵活性，是未来空中战场的主要作战单位。本研究致力于应用深度强化学习算法训练智能体控制无人机，通过高效的机动方式规避空空导弹，迫使敌方进入近距空战格斗，借助快速机动决策达到优势作战态势，从而实施有效打击。本文旨在探究无人机在空中作战中的应用，通过提高无人机的作战能力，为其在未来空中作战的运用提供技术支撑。主要工作及贡献有：（1）在自主机动决策场景中，结合PPO-Clip算法进行无人机规避单枚导弹技术研究，针对该算法在本环境中难以稳定收敛的问题，本文提出PPO-AIG算法。首先，利用批量优势估计处理优势函数，使得优势值分布在较小的范围内，降低策略更新过程中的方差，加快收敛速度、提高收敛稳定性。其次，对比Tanh激活函数和ReLU激活函数在该环境下的稳定性和训练效果，以获得更好的表现。再次，对奖励值进行标准化缩放，使得奖励值的分布更加平稳，减少极端奖励和过度离散化带来的负面影响。实验结果表明，PPO-AIG算法能够训练出具有快速机动决策的智能体来规避空空导弹，模型的收敛效果有明显提升。（2）为解决在多枚导弹打击无人机场景，由于导弹数量动态变化导致状态维度信息也随之改变的问题，本文提出了GUPPO方法。首先，借鉴词向量编码的优势，将单枚导弹与智能体构成的态势特征编码为状态单元，对状态单元按照碰撞估计时间进行排序并组合，提出了单元状态序列的特征编码方式，解决了在动态多目标场景中状态输入维度不断变化的问题。其次，利用门控循环单元能够从变长序列数据中提取隐藏特征的特点，对单元状态序列进行特征提取，并用于强化学习。实验结果表明，提出的GUPPO算法可以稳定收敛，能够有效提升无人机在多导弹打击时的规避成功率。（3）在同时训练无人机博弈双方时，深度强化学习算法可能会陷入局部最优解或产生策略震荡，针对此问题提出了一种进化增强算法。该算法通过结合种群进化算法和深度强化学习算法，将传统的个体交叉变异操作替换为智能体的训练过程，并采用循环对抗机制提高智能体的鲁棒性及泛化能力。在近距离空战格斗场景的实验结果表明，该算法能够持续提高智能体的决策能力，快速达到并保持优势进攻态势，实施有效打击。（4）为进一步提升智能体在空战对抗环境中的训练效能，构建了一套分布式智能空战对抗仿真系统。该系统采用客户端服务器模型架构，使得仿真平台能够提供更好的安全性及可扩展性，提高系统性能且易于维护，预留的TCP接口支持与任意编程语言进行交互。该系统还提供了完整的仿真流程，包括设计和构建空战场景、生成和配置作战单位、执行仿真和记录结果等。用户可以通过简单的配置操作，快速搭建想定并进行空战训练。

关键词

深度强化学习/无人机/机动算法

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李辉/邓富松

学位年度

2023

学位授予单位

四川大学

语种

中文

中图分类号

段落导航