基于通信连通保持的多智能体覆盖控制问题研究

张蕴霖¹

扫码查看

作者信息

1. 电子科技大学
折叠

摘要

多智能体覆盖控制理论广泛应用于环境监控、人员搜救以及战场侦察等复杂任务场景，是当前多智能体协同控制领域的研究热点。根据环境信息，覆盖控制会驱动智能体尽量分散以达到较好的空间覆盖效果，协作地实现区域的最优监视。这一过程中，智能体之间行为协同依赖于信息数据交换，即连通的无线通信网络。然而，在复杂电磁环境中，信号传播的衰减和强电磁干扰会使智能体通信受限，表现为智能体通信范围有限。因此覆盖控制产生的空间分散运动会导致部分智能体间的通信链路中断。这可能使通信网络丢失连通性，导致任务失败。作为集群信息交互的基础，通信连通保持目的在于规划集群的轨迹使之在运动中依旧保持网络的连通。因此，通信连通保持是在复杂电磁环境下顺利实施覆盖控制任务的关键。本文以代数连通度作为连通性指标，考虑通信连通保持约束，分别围绕环境模型已知和未知的覆盖控制问题展开深入研究，主要研究工作总结如下：（1）在现有的环境模型已知的覆盖控制研究中，大多数工作通过综合覆盖和通信连通保持控制律的方式实现连通保持下的覆盖控制，但未能考虑连通保持控制对覆盖效果造成的影响。因此本文首先提出分布式有界的连通保持控制律，并补偿连通度估计误差。在此基础之上，为减少连通保持控制对于覆盖效果的影响，提出一种基于关键智能体辨识的分段控制方法。最后针对智能体陷入局部最优解的“死锁”现象，提出一种自动的死锁检测和消除机制。仿真验证了所提方法的有效性。（2）在现有的环境模型未知的覆盖控制研究中，大多数工作使用多智能体强化学习方法求解有通信连通约束的覆盖控制律，但这需不断地试错来进行学习，没有安全保证。本文将通信连通保持和避撞作为安全约束，应用多智能体安全强化学习中的防护机制，首先针对具有离散决策空间的控制器设计问题，提出基于多智能体Q-learning的方法，其中防护机制实时监控学习，拒绝不安全动作并给予惩罚，并采用固定稀疏表示的方法降低算法的空间复杂度。其次针对具有连续决策空间的控制器设计问题，结合控制障碍函数，提出基于多智能体深度确定性策略梯度的方法，在目标搜索和安全约束之间寻求了折中。仿真证实了所提方法能够保持学习的安全性，并能实现最优覆盖。（3）针对算法实验验证需求，本文将机器人操作系统与动作捕捉系统相结合，以四旋翼无人机作为被控对象，搭建了多智能体半实物验证平台，展示了算法在实际覆盖场景实现的方法，并通过实验结果验证了算法有效性。

关键词

多智能体系统/覆盖控制/通信连通保持/强化学习

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

邵晋梁

学位年度

2022

学位授予单位

电子科技大学

语种

中文

中图分类号

段落导航