计算机应用研究2021,Vol.38Issue(6) :1699-1703.DOI:10.19734/j.issn.1001-3695.2020.09.0232

双Q网络学习的迁移强化学习算法

Transfer reinforcement learning algorithm with double Q-learning

曾睿 周建 刘满禄 张俊俊 陈卓
计算机应用研究2021,Vol.38Issue(6) :1699-1703.DOI:10.19734/j.issn.1001-3695.2020.09.0232

双Q网络学习的迁移强化学习算法

Transfer reinforcement learning algorithm with double Q-learning

曾睿 1周建 2刘满禄 2张俊俊 1陈卓1
扫码查看

作者信息

  • 1. 西南科技大学 制造科学与工程学院,四川 绵阳621000;西南科技大学 特殊环境机器人技术四川省重点实验室,四川 绵阳621000
  • 2. 西南科技大学 特殊环境机器人技术四川省重点实验室,四川 绵阳621000;西南科技大学 信息工程学院,四川 绵阳621000
  • 折叠

摘要

深度强化学习在训练过程中会探索大量环境样本,造成算法收敛时间过长,而重用或传输来自先前任务(源任务)学习的知识,对算法在新任务(目标任务)的学习具有提高算法收敛速度的潜力.为了提高算法学习效率,提出一种双Q网络学习的迁移强化学习算法,其基于actor-critic框架迁移源任务最优值函数的知识,使目标任务中值函数网络对策略作出更准确的评价,引导策略快速向最优策略方向更新.将该算法用于Open AI Gym以及在三维空间机械臂到达目标物位置的实验中,相比于常规深度强化学习算法取得了更好的效果,实验证明提出的双Q网络学习的迁移强化学习算法具有较快的收敛速度,并且在训练过程中算法探索更加稳定.

关键词

深度强化学习/双Q网络学习/actor-critic框架/迁移学习

引用本文复制引用

基金项目

国家"十三五"核能开发项目(20161295)

国家科技重大专项项目(2019ZX06002022)

出版年

2021
计算机应用研究
四川省电子计算机应用研究中心

计算机应用研究

CSTPCDCSCD北大核心
影响因子:0.93
ISSN:1001-3695
被引量2
参考文献量1
段落导航相关论文