面向多无人机对抗的多智能体迁移强化学习方法研究

王忠禹¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

随着人工智能和无人机技术的迅速发展，多无人机作战成为现代空战的主要形式之一。面对这一趋势，基于多智能体强化学习方法进行多无人机对抗决策训练成为当前的研究热点。本文针对强化学习方法在多无人机对抗决策过程中存在的训练周期长和生成协同策略困难等问题展开深入研究。主要研究内容如下：首先，搭建了一个用于模拟多无人机对抗任务的仿真平台。设定了一种多无人机对抗任务场景，并给出了多无人机对抗问题的形式化描述，包括无人机的运动学模型和攻防关系数学模型。此外，介绍了所搭建的仿真平台的各内部模块功能以及仿真平台与强化学习算法之间的交互关系。其次，针对多无人机对抗任务训练难度大和训练时间长的问题，提出了一种结合规则策略的课程迁移强化学习方法。将多无人机对抗任务分解为三个课程阶段，并逐步提高任务难度。通过在各阶段之间进行智能体参数初始化迁移，使每个阶段的智能体都能在相对简单的环境中学习，从而缩短整体任务的训练时间。同时，在任务难度最高的课程阶段引入人为制定的规则策略来辅助智能体进行决策，进一步加快了训练速度并提升了算法性能。本文在多无人机对抗仿真平台中对提出的方法进行了验证，实验结果表明了方法的有效性。最后，针对集中式训练与分散式执行范式强化学习算法在多无人机对抗任务场景中因部分可观测性而难以训练得到有效协同策略的问题，提出了一种部分可观测条件下的策略迁移强化学习方法。通过让部分观测条件下的学生智能体模块按照强化学习的目标函数训练的同时，从全局观测下已探索到有效协同策略的教师智能体模块进行策略蒸馏，达到兼顾跳出部分信息限制学习全局视野下的教师策略和探索局部观测下特有策略的效果。此外，通过设计一个可变系数来动态调整教师策略对于学生的影响，初始阶段能减小学生的探索空间，后期能避免学生依赖教师策略而陷入局部最优。除了在多无人机对抗仿真平台与基线算法进行对比实验之外，本文还在通用的多智能体协作环境中对比了多种算法，实验结果表明了所提出方法的有效性。

关键词

多无人机对抗/多智能体强化学习/协同决策/仿真平台

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

王东

学位年度

2024

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航