进化强化学习的优化算法研究

张正昊¹

扫码查看

作者信息

1. 吉林大学
折叠

摘要

强化学习因为与深度神经网络的结合使其可以处理高维非线性问题而成为近些年来研究的热点之一，虽然其具有良好的采样效率，但是却需要有效的探索使其达到较好的效果。而进化算法（EA）在近些年的工作中被认为是可以代替强化学习的方法之一，其具有较强的探索能力，同时由于种群的存在使其具有良好的并行性，但是其却受到采样效率低下的限制。所以二者的优缺点具有一定的互补性，因此越来越多的工作开始将两类算法进行组合，其中进化强化学习（ERL）是进化算法与深度强化学习相结合的成功框架之一，在ERL之后有许多工作都是借鉴了它的思想，并在它的基础上进行了改进和创新，最终均取得了显著的效果。近端蒸馏进化强化学习（PDERL）算法是基于ERL的最新研究成果。然而，PDERL在选择父本时仍然存在着探索和利用不平衡的问题，同时，本文在利用其开源代码进行实验时发现它在训练的过程中存在不稳定的问题。在本文中提出了一种具有新颖性和模仿学习的进化强化学习算法（NIERL），该算法通过平衡策略的新颖性和个体适应度来解决PDERL中探索和利用不平衡的问题。其中新颖性是新引入的概念，并提出了两个公式（分别代表两种思路）来计算新颖度数值。而适应度是PDERL的EA部分所使用的遗传算法（GA）中已存在的概念，本文保留了其计算方式，只对得到的数据进行了进一步的处理。而且本文进一步提高了训练过程中种群的多样性以及种群整体的效果，这部分的实现除了新引入的新颖度外，还使用了模仿学习的思想，通过模仿学习来保证种群整体效果不断朝更优的方向发展。最后通过引入稳定性模块提升模型训练的稳定性。本文还提出了一种精英指导深度强化学习算法（EGERL），该算法提出的原因是ERL与PDERL的信息交换策略不能很好的使深度强化学习部分的agent快速学习EA部分更优的策略，所以在EA部分学习速度快时利用精英参与深度强化学习的训练过程，从而使EA部分的优秀学习策略快速体现在深度强化学习部分。同时由于本文提出的EGERL算法依然是基于PDERL算法进行的改进与创新，所以PDERL中训练稳定性的问题依旧存在，在EGERL算法中依旧使用了在NIERL算法中提出的稳定性模块以解决PDERL算法中的训练稳定性问题。本文选择了五个Mujoco环境并进行了相应的实验，实验结果表明，提出的这两种算法均优于PDERL和TD3算法。本文还探讨了算法中各个组件对模型的影响以及进行了与其他相关工作的实验对比，从算法最终的效果、算法的稳定性以及算法的收敛速度这几个角度进行了对比，从而使本文的结论更具有说服力。

关键词

进化强化学习/进化算法/模仿学习/训练稳定性

引用本文复制引用

授予学位

硕士

学科专业

计算机技术

导师

吕帅

学位年度

2022

学位授予单位

吉林大学

语种

中文

中图分类号

段落导航