首页|基于异环境重要性采样的增强DDRQN网络

基于异环境重要性采样的增强DDRQN网络

扫码查看
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制.并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络.通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升.
Enforced DDRQN Network Based on Off-environment Importance Sampling

樊龙涛、张森、普杰信、刘源源

展开 >

河南科技大学信息工程学院,河南 洛阳 471023

多智能体 强化学习 局部可观测 经验回放机制 重要性采样

2020

火力与指挥控制
火力与指挥控制研究会,火力与指挥控制专业情报网

火力与指挥控制

CSTPCDCSCD北大核心
影响因子:0.312
ISSN:1002-0640
年,卷(期):2020.45(1)
  • 1
  • 16