带Q网络过滤的两阶段TD3深度强化学习方法

Two-stage TD3 Deep Reinforcement Learning Algorithm with Q Network Filtration

周娴玮 ¹包明豪 ¹叶鑫 ¹余松森¹

扫码查看

作者信息

1. 华南师范大学软件学院,广东佛山 528000
折叠

摘要

常规的深度强化学习模型训练方式从"零"开始,其起始策略为随机初始化,这将导致智能体在训练前期阶段探索效率低、样本学习率低,网络难以收敛,该阶段也被称为冷启动过程.为解决冷启动问题,目前大多数工作使用两阶段深度强化学习训练方式;但是使用这种方式的智能体由模仿学习过渡至深度强化学习阶段后可能会出现遗忘演示动作的情况,表现为性能和回报突然性回落.因此,该文提出一种带Q网络过滤的两阶段TD3 深度强化学习方法.首先,通过收集专家演示数据,使用模仿学习-行为克隆以及TD3 模型Q网络更新公式分别对Actor网络与Critic网络进行预训练工作;进一步地,为避免预训练后的Actor网络在策略梯度更新时误选择估值过高的演示数据集之外动作,从而遗忘演示动作,提出Q网络过滤算法,过滤掉预训练Critic网络中过高估值的演示数据集之外的动作估值,保持演示动作为最高估值动作,有效缓解遗忘现象.在Deep Mind提供的Mujoco机器人仿真平台中进行实验,验证了所提算法的有效性.

关键词

两阶段深度强化学习/冷启动问题/模仿学习/预训练网络/TD3

Key words

two-stage deep reinforcement learning/cold start/imitation learning/pretraining network/TD3

引用本文复制引用

基金项目

广东省应用型科技研发重大专项(2016B020244003)

广东省基础与应用基础研究基金(2020B1515120089)

广东省基础与应用基础研究基金(2020A1515110783)

广东省企业科技特派员项目(GDKTP2020014000)

出版年

2023

计算机技术与发展

陕西省计算机学会

计算机技术与发展

CSTPCD

影响因子：0.621

ISSN：1673-629X

参考文献量2

段落导航