基于强化学习的状态不可测离散严格反馈非线性系统事件触发控制

王坤柠¹

扫码查看

作者信息

1. 华南理工大学
折叠

摘要

随着现代工业控制系统的复杂化、数字化，具有未知非线性动态的离散系统逐渐成为了现代控制领域研究的热点。考虑到许多实际系统可以建模为严格反馈形式，比如无人船、机械臂、无人机，而且在实际场景中往往很难通过传感器获取系统的所有状态，因而本文围绕着一类具有未知非线性动态的状态不可测离散严格反馈非线性系统展开研究。注意到目前网络控制系统的普遍化，网络通信负担增加，如何为上述系统设计一种有效的事件触发机制来降低网络通讯负担，并结合强化学习来优化控制性能是一个前沿且具有挑战的课题。鉴于此，本文的主要工作概述如下：首先，针对具有未知动态的状态不可测离散严格反馈非线性系统，本文通过设计一种神经网络状态观测器来估计系统的状态信息，从而实现对状态量的实时观测和解耦状态观测器和控制器设计。在控制器设计过程中，本文通过采用一种变量代换策略代替传统的预测技术，不仅能够解决控制器设计的因果矛盾问题，而且能够避免控制器的n步时延问题。随后，基于自适应评价机制，设计依赖评价-执行网络的最优控制器，实现对系统输出的镇定控制。其次，考虑状态不可测离散严格反馈非线性网络控制系统，系统的通信网络位于状态观测器到控制器之间。本文采用反步法和变量代换策略进行控制器设计。在评价-执行网络中，为了使方案更符合跟踪控制的特点，本文采用一种巧妙的迭代变换技术将执行网络更新律中的控制误差项刻画为已知的系统内部动态信息，从而得到更加准确可行的更新律，并能够保证执行网络误差的收敛，使控制器达到最优。为了降低通信网络数据传输，本文通过设计一种新型的事件触发条件，在降低网络传输负担的同时能够实现系统输出对参考信号的稳定跟踪。最后，本文重置上述网络控制系统的通信网络位置，考虑传感器到状态观测器之间的通信网络。此时在网络中只需传输系统输出信息，可以进一步降低网络传输负担；并据此设计一种基于动态事件触发机制的状态观测器，保证事件触发通信网络下的状态观测效果。随后，结合反步法、变量代换策略等技术，设计基于评价-执行网络的最优控制器，确保闭环系统稳定以及系统的跟踪控制性能。

关键词

离散严格反馈非线性系统/状态观测器/强化学习/事件触发控制

引用本文复制引用

授予学位

硕士

学科专业

控制工程

导师

王敏/谢志文

学位年度

2022

学位授予单位

华南理工大学

语种

中文

中图分类号

段落导航