基于深度强化学习的多智能体覆盖控制研究

刘诗诚¹

扫码查看

作者信息

1. 燕山大学
折叠

摘要

近年来，随着人工智能技术的不断开拓和智能体领域的不断深入，单智能体深度强化学习领域产出了许多优秀成果。为了解决较复杂的团队任务，深度强化学习逐渐被引入至多智能体范畴中。在多智能体系统中，多智能体覆盖控制任务是最典型的多智能体协同问题之一，对此传统单智能体深度强化学习算法难以有效收敛，且学习效率和效果不佳。本文针对智能制造车间中的多机器人搬运系统展开研究，将其抽象为多固定库房点的多智能体覆盖控制问题，并展开以下研究：首先，针对深度强化学习在多智能体覆盖控制系统应用中存在的训练结果不能平稳收敛的问题，提出了一种基于改进Adam优化器的近端策略优化深度强化学习算法IAAC(ImproveAdamActorCritic)。首先，使用样本池机制将智能体与环境互动的结果存储起来并在多智能体训练中提供相应的样本。然后，通过集中式学习、分散式执行的方式，与AC框架(Actor-Critic)相结合训练出一个中心化的可近似拟合真实Q值的评论家(Critic)网络，采用双网络部分继承进行网络参数的更新。最后，在梯度下降过程中引入快慢权重参数更新，用以提高收敛效果和学习效率。然后，针对多智能体深度强化学习算法的复杂度和特征矩阵计算量过大的问题，提出一种基于改进SoftMax层多头注意力机制的多智能体覆盖控制任务模型LSA-MAL(LinearSoftMaxAttentionMulti-AgentLandmark)。首先，引入多头注意力机制，将输入特征映射成Q、K、V三个特征，通过部分点乘加权映射得到一个新的特征。然后，将SoftMax层的推导公式线性化展开，并对展开公式部分L2归一化，使得线性展开能够模拟原SoftMax映射函数。最后，使用改进后的线性公式代替SoftMax层在多头注意力中的应用。最后，构建了基于多智能体粒子的仿真环境，对基于改进Adam优化器的近端策略优化深度强化学习算法IAAC与基于改进SoftMax层多头注意力机制的多智能体覆盖控制任务模型LSA-MAL进行对比实验与分析。实验结果证明了改进算法与模型的有效性，能够在保持成功率的同时，提高智能体的训练速度和收敛性。

关键词

多智能体系统/覆盖控制/近端策略/注意力机制/深度强化学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

吴培良

学位年度

2022

学位授予单位

燕山大学

语种

中文

中图分类号

段落导航