首页|基于深度协同和对比学习的多智能体通信强化学习算法研究

基于深度协同和对比学习的多智能体通信强化学习算法研究

吕易阳

基于深度协同和对比学习的多智能体通信强化学习算法研究

吕易阳1
扫码查看

作者信息

  • 1. 燕山大学
  • 折叠

摘要

近年来,随着具身智能快速发展,以强化学习为代表的人工智能方法在单智能体领域取得突破性进展,而现实生活中许多任务都需要团队协作才能完成,多智能体强化学习也变得尤为重要。为了提高多智能体系统的工作效率,基于通信的多智能体强化学习成为了关键研究方向,但通信过程中智能体协同效率低以及行为同质化的问题仍然存在。为了解决这些问题,本文对现有算法进行了优化和改进。 针对通信过程中智能体之间协同效率低的问题,提出了深度协同行为预测通信网络(Deep Collaborative Behavior Prediction Communication Model Network,DCBPC)算法。首先,设计了面向通信的信息特征提取模型,通过提取通信信息的长期依赖关系和不同时间尺度的特征,增强了智能体间的协同表达;其次,提出了基于通信对象建模的模型对通信对象进行建模,预测其他智能体未来的状态;最后,通过比较预测结果与实际观测结果,动态生成额外奖励来指导智能体的学习过程,建立通信对象间的协同关系,使得智能体在通信过程中体现出良好的协同效应。 针对通信过程中智能体之间行为同质化的问题,提出了基于类别表征和对比学习通信网络(Category Representation Learning and Contrastive Learning Communication Model Network,CRLCL)算法。首先,提出了基于智能体注意力重塑的对比学习方法,通过注意力机制重构智能体对环境观测的隐藏状态,强化了多智能体在协作空间的本质特征,以此鼓励智能体在学习过程中获得自身独特的核心表征;其次,提出了基于双向交叉注意力的智能体分类对比学习,通过引入类别表征和双向交叉注意力机制,使得智能体在全局状态下实现动态的类别划分,展示出更明显的类别特征,进而促进智能体间的差异化,提高协作效率;最后,通过将策略网络的损失与对比学习损失相结合,进行联合优化。 最后,分别在Predator-Prey与Google Research Football仿真环境下实现了DCBPC算法与CRLCL算法。并在平均成功率与平均步数两方面与现有算法进行了对比实验和消融实验,验证了本文所提出算法的有效性。

关键词

多智能体强化学习/通信过程/深度协同/对比学习

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

吴培良/王辉

学位年度

2024

学位授予单位

燕山大学

语种

中文

中图分类号

TP
段落导航相关论文