基于深度强化学习的约束末制导律研究

郑成辰¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

随着现代战争防御体系和反导技术的不断升级，导弹制导律也面临着新的挑战。在空中作战态势瞬息万变的情况下，传统导引律的制导性能已经无法满足现代空战高精度、高灵活性、高适应性的作战要求。因此，如何根据战场环境和任务目标高效、准确地生成制导策略成为了当前制导律设计领域的重要研究课题。传统比例导引律在面对角度约束、时间约束等受限条件下的制导问题愈显乏力，而最优制导律在理论上可以解决约束条件下的制导问题，但其形式过于复杂，同时依赖对弹目相对状态的精准感知，在实际作战环境中难以直接应用。近年来深度强化学习技术在决策与控制领域展现出了巨大的优势。相比传统的模型预测控制方法，不依赖于对环境模型的准确分析，通过调取训练后的模型即可快速做出当前态势下的最优决策，适应于解决空空导弹在复杂环境中的制导问题。本文以二维水平空域和三维空域中的空空导弹末制导问题为应用背景，针对两种不同约束条件下的导弹制导任务，基于强化学习中的近端策略优化算法提出了两种偏置比例导引律，拓展了比例导引律的适用范围。主要工作内容如下：（1）针对传统比例导引律无法精准控制导弹末端拦截角的问题，本文基于近端策略优化算法搭建深度强化学习制导模型，通过对模型的训练实现了从弹目相对态势到导弹过载量的映射。首先，针对三维空域中的空空导弹拦截机动目标任务的训练要求，建立以过载为控制量的导弹和无人机运动模型。其次，为加快模型的收敛速度，提出一种基于碰撞点预测的剩余飞行时间估计算法作为状态向量输入神经网络模型。最后，通过仿真对比实验验证了所提出模型的有效性。（2）针对传统比例导引律无法完成多弹时间一致性约束制导的问题，本文利用强化学习算法提出一种多弹时间一致性协同制导方法。首先，根据任务需求，建立二维空域下多弹协同打击的作战环境。其次，提出一种基于皮尔逊相关系数的时间一致性评估方法，作为模型的奖励函数对协同制导结果进行评估。最后，与分布式协同制导律进行仿真对比实验，实验结果证明所提出模型能够解决时间约束下的多弹协同制导问题，且在控制精度与打击效率上也超越了传统方法。（3）针对现有制导仿真环境无法满足导弹制导律研究的需要，设计并开发智能制导仿真系统，利用RaiSim仿真引擎实现导弹和无人机的状态转移方程，设计导弹制导相关的控制接口，能够支持不同约束条件下的制导任务的训练与验证，为智能制导律的研究提供了关键的仿真支持。首先，根据仿真系统的需求设计开发相应的功能模块。其次，实现智能体与仿真环境的通信交互，提供智能体训练和验证的基础条件。最后，通过仿真可视化界面展示三维空域中所提出算法控制下的导弹飞行轨迹，验证本文所提出的两种偏置制导律的有效性，也同时证明该仿真系统能够支持智能制导律的研究。

关键词

约束末制导律/深度强化学习/神经网络

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

李辉/刘云杰

学位年度

2023

学位授予单位

四川大学

语种

中文

中图分类号

段落导航