基于深度强化学习的无人机空战对抗研究

张敬俞¹

扫码查看

作者信息

1. 西安工业大学
折叠

摘要

在未来的作战场景中，无人化、智能化作战平台将是不可忽略的中坚力量。无人机(UAV, Unmanned Air Vehicle)作为重要的无人作战平台，能够突破人体生理极限、避免人员伤亡的同时，具有成本低、高效、多样化等优点。但无人机平台在空战对抗决策过程中仍然存在智能化水平不足、空战动作效能评价困难、智能体决策训练效率较低等问题。近年来，深度强化学习方法在离散任务与连续任务的决策问题上取得了一定的突破，为无人机空战对抗的机动决策提供了新思路。本文将深度强化学习算法（Deep Reinforce Learning, DRL）应用于近距离一对一无人机空战对抗机动决策的研究当中，并设计仿真场景对深度强化学习算法进行验证。主要工作如下：（1）针对无人机平台智能化水平不足问题，通过改进并提出 MPPO 算法，基于近距空战场景描述与无人机强化学习模型，本文设计无人机智能体模型作为PPO算法训练的模型，将无人机智能体模型的状态输入与奖励值进行正则化处理，提高训练时的稳定性与训练效率，同时引入策略熵，以提高智能体在训练过程中的探索能力，避免智能体提前陷入次优解中；（2）针对无人机在空战对抗决策过程中空战动作效能评价困难问题，本文引入效用模型思想，利用综合考虑空战场景中的角度、速度、高度、距离四种优势因子，针对性地设计了不同的奖励函数，空战态势分为四种基本类型，并将四种优势因子奖励进行参数化加权分配，根据贝叶斯概率公式分别计算其概率，提高奖励分配的合理性；（3）针对无人机智能体决策训练效率较低的问题，通过引入元学习与元强化学习思想，并结合本文所改进的PPO算法，提出了一种更加高效的强化学习算法MPPO，并通过设计更加复杂的空战对抗场景与 MPPO 算法训练所需的任务集，测试本文所提出的MPPO算法的优越性与有效性。根据实验结果，本文提出的算法所训练的无人机智能体模型，能够完成与一对一近距空战任务，由机动决策效能评估模型引导，在试错过程中完成自我学习，提高自身在空战中的机动决策能力；其在测试验证过程中能够快速调整自身态势占据有利地位，展现出智能性和自适应性。

关键词

无人机空战/机动决策/深度强化学习/智能体模型

引用本文复制引用

授予学位

硕士

学科专业

控制理论与控制工程

导师

陈忠孝

学位年度

2024

学位授予单位

西安工业大学

语种

中文

中图分类号

段落导航