计算机科学2021,Vol.48Issue(10) :37-43.DOI:10.11896/jsjkx.200900208

基于情节经验回放的深度确定性策略梯度方法

Deep Deterministic Policy Gradient with Episode Experience Replay

张建行 刘全
计算机科学2021,Vol.48Issue(10) :37-43.DOI:10.11896/jsjkx.200900208

基于情节经验回放的深度确定性策略梯度方法

Deep Deterministic Policy Gradient with Episode Experience Replay

张建行 1刘全2
扫码查看

作者信息

  • 1. 苏州大学计算机科学与技术学院 江苏 苏州215006
  • 2. 苏州大学计算机科学与技术学院 江苏 苏州215006;苏州大学江苏省计算机信息处理技术重点实验室 江苏 苏州215006;吉林大学符号计算与知识工程教育部重点实验室 长春 130012;软件新技术与产业化协同创新中心 南京210000
  • 折叠

摘要

强化学习中的连续控制问题一直是近年来的研究热点.深度确定性策略梯度(Deep Deterministic Policy Gradients,DDPG)算法在连续控制任务中表现优异.DDPG算法利用经验回放机制训练网络模型,为了进一步提高经验回放机制在DDPG算法中的效率,将情节累积回报作为样本分类依据,提出一种基于情节经验回放的深度确定性策略梯度(Deep Determinis-tic Policy Gradient with Episode Experience Replay,EER-DDPG)方法.首先,将经验样本以情节为单位进行存储,根据情节累积回报大小使用两个经验缓冲池分类存储.然后,在网络模型训练阶段着重对累积回报较大的样本进行采样,以提升训练质量.在连续控制任务中对该方法进行实验验证,并与采取随机采样的DDPG方法、置信区域策略优化(Trust Region Policy Op-timization,TRPO)方法以及近端策略优化(Proximal Policy Optimization,PPO)方法进行比较.实验结果表明,EER-DDPG方法有更好的性能表现.

关键词

深度确定性策略梯度/连续控制任务/经验回放/累积回报/分类经验回放

引用本文复制引用

基金项目

出版年

2021
计算机科学
重庆西南信息有限公司(原科技部西南信息中心)

计算机科学

CSTPCDCSCD北大核心
影响因子:0.944
ISSN:1002-137X
被引量5
参考文献量1
段落导航相关论文