基于自适应动态规划的参数未知线性系统控制

姜怀远¹

扫码查看

作者信息

1. 哈尔滨工业大学
折叠

摘要

随着信息科学技术的不断发展，工业系统的规模与复杂程度在不断扩大，生产系统在实际运行过程中对系统的性能以及节能需求也日益增加，因此最优控制越来越成为控制领域的一个研究热点。在求解系统最优控制问题的过程中，传统动态规划方法往往受到“维数灾”问题的困扰，为了克服这一问题，学者们提出了自适应动态规划技术。自适应动态规划技术是一种融合了动态规划、强化学习、自适应控制、最优控制等理论与方法的新兴控制技术。该方法能够解决传统动态规划方法在求解最优控制问题时所面临的“维数灾”问题，目前已被视为解决复杂系统最优控制问题的最为有效方法之一。自适应动态规划方法最早建立于有限Markov决策过程中，到目前为止这一技术在连续状态空间控制系统领域的应用已经得到了长足的发展，但是尚有部分开放性问题待学者们探索。本文主要就参数未知线性系统的控制问题针对现有自适应动态规划方法的部分限制进行研究，扩展了自适应动态规划方法现有的部分理论成果，主要工作和贡献如下： 1.针对线性系统的H耱优化控制问题展开研究，建立新式基于值迭代的自适应动态规划设计框架。本文首先利用系统离线输入状态数据通过倒向求解微分Riccati方程来逼近系统期望H耱优化控制器的形式，并在此基础上分析相关的微分Riccati方程的局部稳定性。此外，本文使用这一思想对含有状态时滞的时滞系统的保性能控制器的设计方法进行研究。在定常系统的基础上，本文还针对线性周期系统的H耱优化控制问题展开研究，基于相同的思想建立基于值迭代方法的线性周期系统的H耱优化控制器的设计框架，拓宽自适应动态规划技术的应用范围。 2.针对现有的广义策略迭代方法展开分析，建立针对线性离散系统的修正广义策略迭代方法。与传统的策略迭代方法相比，广义策略迭代方法不需要通过无穷次迭代或者求逆运算来得到系统值函数的准确形式，在一定程度上降低了计算量。但是现有的广义策略迭代方法大多基于系统初始稳定控制器进行实现，或者对每次迭代过程中的闭环系统自身的稳定性存在特殊的要求。本文通过对该方法的迭代方程进行细致的分析，以迭代过程中特定参数的单调变化情况入手，构造新式的广义策略迭代方法的收敛条件。在此基础上，设计了从任意初始状态进入该邻域的方法，从而保证在任意半正定初值条件下，算法总能逼近到系统所期望的控制增益形式。 3.针对现有的λ-策略迭代方法展开分析，建立针对线性离散系统的修正λ-策略迭代方法。与广义策略迭代方法相同，现有的针对连续状态空间系统的λ-策略迭代方法大多基于系统的初始容许控制器进行实现，本文通过对传统λ-策略迭代方法的迭代方程进行分析，对迭代过程中特定参数的单调变化特性给出证明，并进一步结合修正环节，降低了现有算法对于初始镇定控制器的依赖。在此基础上，对加速的修正λ-策略迭代方法进行设计，仿真分析表明该方法不仅能够以传统值迭代方法的形式进行启动，还具有近似传统策略迭代方法的收敛速度。 4.对线性连续时间系统优化控制的偏量策略迭代方法展开研究。自适应动态规划技术的基础算法可分为值迭代方法与策略迭代方法两类。目前来说针对线性连续时间系统的策略迭代方法已有相当丰硕的成果被提出，但是相关值迭代方法尚未研究成熟。受离散系统中λ-策略迭代方法的启发，本文结合策略迭代与值迭代方法，建立针对线性连续时间系统的偏量策略迭代方法，对算法收敛速度以及初始控制条件进行折中，降低现有策略迭代方法及其衍生方法的应用限制。数值例子表明，与现有的值迭代方法相比，所研究的方法收敛所需的迭代次数大大减少。

关键词

自适应动态规划/修正策略迭代/最优控制/数据驱动控制

引用本文复制引用

授予学位

博士

学科专业

控制科学与工程

导师

周彬

学位年度

2022

学位授予单位

哈尔滨工业大学

语种

中文

中图分类号

段落导航