国家学术搜索
登录
注册
中文
EN
首页
|
基于异环境重要性采样的增强DDRQN网络
基于异环境重要性采样的增强DDRQN网络
下载
引用
认领
扫码查看
点击上方二维码区域,可以放大扫码查看
原文链接
国家科技期刊平台
NETL
NSTL
万方数据
维普
中文摘要:
针对局部可观测多智能体学习环境下,智能体与环境频繁交互造成环境不稳定,导致智能体无法使用经验回放机制(experience replay)的问题,采用了一种基于异环境重要性采样的回放经验利用机制.并结合该机制再深度强化学习算法,深度分布式循环Q网络(DDRQN)基础上进行了改进,提出一种增强型的深度分布式循环Q网络.通过对DeepMind的PySC2平台DefeatRoaches局部可观测多智能体学习环境实验结果对比分析表明,增强型的深度分布式循环Q网络相比于DDRQN网络,具有良好的学习性能,稳定性、收敛速度均具有显著提升.
外文标题:
Enforced DDRQN Network Based on Off-environment Importance Sampling
收起全部
展开查看外文信息
作者:
樊龙涛、张森、普杰信、刘源源
展开 >
作者单位:
河南科技大学信息工程学院,河南 洛阳 471023
关键词:
多智能体
强化学习
局部可观测
经验回放机制
重要性采样
出版年:
2020
火力与指挥控制
火力与指挥控制研究会,火力与指挥控制专业情报网
火力与指挥控制
CSTPCD
CSCD
北大核心
影响因子:
0.312
ISSN:
1002-0640
年,卷(期):
2020.
45
(1)
被引量
1
参考文献量
16