多层反导体系智能目标分配算法研究

费帅迪¹

扫码查看

作者信息

1. 西安工业大学
折叠

摘要

随着弹道导弹制导技术、雷达技术和信息技术的发展，武器目标分配（Weapon Target Assignment，WTA）问题在反弹道导弹(Anti-Ballistic Missile ,ABM)作战态势中的研究越来越趋向于中大规模、多批次、高动态性，这就使得反导武器目标分配策略的生成也趋向于高收益、高效率、高拦截率。此外，深度强化学习算法在智能决策、资源规划和对抗博弈领域的发展也为WTA问题提供了新的研究思路。因此本文的研究目的是建立基于深度强化学习的武器目标分配算法模型，来解决传统智能算法在中大规模、多批次、多对多的目标分配运算效率低、策略生成速度慢、拦截收益和成功率低的问题。在算法模型中分别应用传统的A2C(Advantage Actor Critic)算法、PPO(Proximal Policy Optimization,)算法以及结构改进的A2C算法和PPO算法与传统智能算法进行对比。从目标分配算法模型的建立到多种深度强化学习算法的应用，逐步研究、推理和验证来提高目标分配方法的运算效率、拦截收益和拦截成功率。本文的主要研究内容和创新点如下：（1）面对传统智能算法在中大规模的WTA存在的问题，构建一个基于A2C算法、PPO算法的多输入目标分配算法。首先，引入多目标信息处理思想来解决不同规模作战场景中多个目标导弹、拦截单元、保卫单元的原始数据处理问题。然后，建立以拦截收益为目标函数的分配模型，并将模型与马尔可夫决策过程结合建立可适配中大规模作战场景的状态转移四元组，包括构建反应全局作战单元信息的状态空间和动作空间、设计局部收益和全局收益结合的奖励函数。最后建立基于A2C算法、PPO算法的多输入目标分配算法的网络训练模型。经过仿真实验结果验证，相比传统智能算法，基于A2C算法、PPO算法的多输入目标分配算法可以有效的提高算法策略生成速度、拦截收益和拦截成功率。（2）针对传统的A2C算法和PPO算法无法解决在中大规模、多批次作战场景中环境状态数据信息时间序列相关性、策略网络收敛速度慢和训练效率差的问题，提出基于改进的A2C算法、PPO算法。改进的算法通过在特征提取网络中引入长短期记忆（Long Short-Term Memory ,LSTM）网路来提高算法网络对状态信息的提取能力，保留前一时刻和当前时刻的重要信息；在策略网络中加入多头自注意力机制，来提高策略网络做决策时对某些信息的关注度。经过仿真实验结果验证，改进后的A2C算法和PPO算法相比传统的A2C算法和PPO算法，有更好的收敛能力、策略生成速率、拦截收益和拦截成功率。（3）在改进A2C、PPO算法网络结构的基础上,为了进一步提高神经网络的稳定性、状态数据信息的提取能力以及策略网络的探索效率和收敛能力，建立基于门控循环（Gate Recurrent Unit ,GRU）网络和条件多头注意力机制的A2C算法、PPO算法。该算法通过在特征提取网络中引入GRU来进一步提高算法在前期决策的状态数据提取能力，以及在策略网络中将拦截单元的数据状态信息作为Query查询向量的输入，融合的状态信息数据作为Key向量和Value向量的输入，以此来提高策略网络训练效率和收敛能力。通过仿真实验证明，基于GRU和条件多头注意力机制的A2C算法和PPO算法在算法决策性能上有较大的提升。

关键词

反弹道导弹/目标分配/深度强化学习/长短期记忆网络/智能目标分配

引用本文复制引用

授予学位

硕士

学科专业

兵器科学与技术

导师

蔡长龙

学位年度

2024

学位授予单位

西安工业大学

语种

中文

中图分类号

段落导航