面向多无人机对抗的多智能体强化学习信用分配方法

徐金辉¹

扫码查看

作者信息

1. 大连理工大学
折叠

摘要

随着人工智能和无人机技术的发展，多无人机对抗将成为未来重要的作战方式。近年来多智能体强化学习发展迅速，凭借其强大的自适应、自学习能力，已经被应用于解决多无人机对抗问题，提高多无人机作战能力。然而，如何设置信用分配机制是多智能体强化学习面临的一个关键问题，信用分配是指合理评估某个智能体在集体中的贡献来合理分配奖励，从而加速训练过程，引导智能体学习高效协作策略。本文基于多智能体强化学习开展多无人机对抗问题的研究，并针对信用分配问题基于沙普利值和态势威胁度分别设计解决方法，有效提升训练效率和无人机作战能力。本文的主要研究内容包括如下三部分内容。 (1)描述了多无人机对抗任务，搭建了多无人机对抗仿真环境。首先构建了无人机的运动模型和对抗模型，然后据此搭建了仿真环境，并在其中设计了完善的算法交互模块，包括基础的奖励函数和不同难度的敌方策略，为研究信用分配方法提供了基础。最后针对无人机间相互碰撞的问题，结合规则约束与奖励引导的方式设计了防碰撞方法，有效降低了碰撞次数，提高了对抗胜率。 (2)针对集体奖励场景中的懒惰智能体问题，提出了一种基于注意力-等概率混合采样的反事实沙普利信用分配方法，提高了训练效率。该方法将多架无人机视为多智能体系统，引入沙普利值进行集体奖励场景的信用分配，其定义了一个考虑智能体间关联的加权沙普利值，并基于注意力机制设计了一种混合采样方法降低计算复杂性。实验表明，该方法能有效提高多智能体强化学习算法的性能，并增强多无人机系统的作战能力。 (3)针对个体奖励场景中智能体间协作性差的问题，提出了一种基于多无人机态势威胁度的信用分配方法，提高了多无人机的协作能力。在该方法中，设计了一个基于经验知识的多无人机态势威胁度评估方法，然后基于该评估方法利用反事实思想设计了威胁度势函数辅助奖励和助攻奖励，其中辅助奖励用来加速训练过程，助攻奖励用来提高最终策略性能。实验表明该信用分配方法能有效提高训练速度和多无人机的协同作战能力。

关键词

无人机对抗/信用分配/沙普利值/威胁度/多智能体强化学习

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

王东/姜楠

学位年度

2024

学位授予单位

大连理工大学

语种

中文

中图分类号

段落导航