基于强化学习的多智能体系统数据驱动一致性控制研究

赵晨¹

扫码查看

作者信息

1. 西南大学
折叠

摘要

多智能体系统由于其具有自主性、容错性、灵活性、可扩展性及协作性等特点，在航空航天、交通运输和水下作业等领域发挥了巨大的潜力。一致性控制旨在为每个智能体设计分布式控制策略，达成某种特定的条件，从而使多个智能体在一个关键量达成一致。系统在协同作业的过程中，能否接收环境反馈并调整自身控制方案是智能化的关键。强化学习具有根据反馈调整动作策略的能力，可以克服求解一致性控制时对系统动力学的依赖，满足数据驱动控制的实时性需求。因此，针对一类离散未知非线性多智能体系统，基于强化学习算法，本文提出了一个在线的数据驱动方法，在解决一致性控制问题的同时，还考虑了故障、时滞、切换拓扑的影响，实现了低成本高性能的优化控制。本文研究内容如下：针对一类离散未知非线性多智能体系统，考虑执行器故障，本文设计了自适应容错控制策略，来实现系统跟随者与领航者的状态一致性。首先，为了抑制故障因子对系统性能的破坏，将含有故障因子的性能指标转化为一个关于理想控制信号的函数。进而，引入了一个参考模型来构建双层控制框架。其中，第一层是模型参考自适应控制层，通过使所有智能体状态追踪至其对应的参考系统，达成线性化目标。而后，在分布式控制层中，综合考虑了追踪性能以及控制成本，利用策略迭代算法实现最优控制。最后，完成迭代优化，多智能体系统状态达成一致。在上述研究内容的基础上，本文还对系统模型进行了进一步的扩展，以描述更多应用场景。同时，解决了切换拓扑和时滞问题。具体地，针对两种切换模式——马尔可夫随机切换过程和周期性切换过程，本文设计了新的二次型效用函数。为了解决时滞对系统稳定性的影响，在第四章引入了一个矩阵函数。通过理论证明了控制信号当前与过去总存在一种函数关系，并创建了一个M网络来描述这种关系。结合演员-评论家网络框架，将时滞系统转化为普通系统，从而求解最优控制。最终，切换拓扑和时滞的影响都被消除，系统得以稳定运行。

关键词

多智能体系统/数据驱动/一致性控制/强化学习

引用本文复制引用

授予学位

硕士

学科专业

电子信息

导师

王欣

学位年度

2024

学位授予单位

西南大学

语种

中文

中图分类号

段落导航