摘要
多智能体系统由于其具有自主性、容错性、灵活性、可扩展性及协作性等特点,在航空航天、交通运输和水下作业等领域发挥了巨大的潜力。一致性控制旨在为每个智能体设计分布式控制策略,达成某种特定的条件,从而使多个智能体在一个关键量达成一致。系统在协同作业的过程中,能否接收环境反馈并调整自身控制方案是智能化的关键。强化学习具有根据反馈调整动作策略的能力,可以克服求解一致性控制时对系统动力学的依赖,满足数据驱动控制的实时性需求。因此,针对一类离散未知非线性多智能体系统,基于强化学习算法,本文提出了一个在线的数据驱动方法,在解决一致性控制问题的同时,还考虑了故障、时滞、切换拓扑的影响,实现了低成本高性能的优化控制。本文研究内容如下: 针对一类离散未知非线性多智能体系统,考虑执行器故障,本文设计了自适应容错控制策略,来实现系统跟随者与领航者的状态一致性。首先,为了抑制故障因子对系统性能的破坏,将含有故障因子的性能指标转化为一个关于理想控制信号的函数。进而,引入了一个参考模型来构建双层控制框架。其中,第一层是模型参考自适应控制层,通过使所有智能体状态追踪至其对应的参考系统,达成线性化目标。而后,在分布式控制层中,综合考虑了追踪性能以及控制成本,利用策略迭代算法实现最优控制。最后,完成迭代优化,多智能体系统状态达成一致。 在上述研究内容的基础上,本文还对系统模型进行了进一步的扩展,以描述更多应用场景。同时,解决了切换拓扑和时滞问题。具体地,针对两种切换模式——马尔可夫随机切换过程和周期性切换过程,本文设计了新的二次型效用函数。为了解决时滞对系统稳定性的影响,在第四章引入了一个矩阵函数。通过理论证明了控制信号当前与过去总存在一种函数关系,并创建了一个M网络来描述这种关系。结合演员-评论家网络框架,将时滞系统转化为普通系统,从而求解最优控制。最终,切换拓扑和时滞的影响都被消除,系统得以稳定运行。