基于粒子群优化自适应动态规划的事件触发控制

罗玮琛¹

扫码查看

作者信息

1. 广东工业大学
折叠

摘要

最优控制作为控制领域的分支之一，对现代的工业生产和人们的生活发挥着重要的作用。随着计算机硬件技术的发展，许多先进的自适应学习算法得到关注，并应用于求解最优控制问题。自适应动态规划(Adaptive Dynamic Programming,ADP)从强化学习的角度克服了传统动态规划中的“维数灾”问题，是求解复杂非线性系统最优控制问题的有效方法。随着生产效率提升的需要，实际系统的结构日渐复杂，规模也逐渐增大，对单控制器系统的研究已经不能满足实际的需要。一些新型的、具备资源节约属性和高效性的理论以及控制算法迫切需要得到研究。近年来，基于事件触发的微分博弈得到关注，其在复杂系统的高效控制研究上展现潜力。为了进一步节约计算和通信资源，提升学习算法的效率，本文研究了非线性系统微分博弈的事件触发控制，并采用群体智能算法提升ADP方法的效果，包含以下两个方面： 1、针对连续非线性系统的零和博弈问题，研究了基于ADP的事件触发控制方法。首先，通过引入无限时间域价值函数，得到了双方的最优控制策略，进而将零和博弈问题转换为最优控制问题。其次，通过采用单评价网络结构，降低了算法的复杂性。此外，通过粒子群优化算法(Particle Swarm Optimization,PSO)进行网络的更新，而不是传统的梯度下降法，克服了初始权重依赖于专家经验的缺点，进而提升了学习的效率。通过理论分析和仿真实验，证明和验证了所提的事件触发控制策略能保证系统的稳定性。 2、针对连续时间多玩家非零和博弈系统的跟踪控制问题，研究了一种事件触发控制方法。首先，针对误差系统，设计了每个玩家的最优价值函数以及最优跟踪控制策略，进而得到耦合的哈密顿-雅阁比(Hamilton-Jacobi,HJ)方程。为了克服求解耦合HJ方程的困难，采用了ADP的方法，并利用同步策略迭代框架进行近似求解。其次，利用Lyapunov方法设计了一个新的事件触发条件，该条件能保证闭环误差系统的稳定性。此外，采用PSO算法进行神经网络权重的更新，提高了求解HJ方程的效率，且缓解了初始权重选取的困难。两个仿真实验表明所提出的事件触发跟踪控制方法是有效的。最后，根据研究过程中的经验和心得，总结了全文，并对未来值得研究和改进的方向进行了阐述。

关键词

非线性系统/微分博弈/事件触发控制/自适应动态规划/粒子群优化

引用本文复制引用

授予学位

硕士

学科专业

控制科学与工程

导师

刘德荣

学位年度

2022

学位授予单位

广东工业大学

语种

中文

中图分类号

段落导航