摘要
强化学习(ReinforcementLearning,RL)作为机器学习领域中重要的算法之一,一直为工业界与学术界所关注。强化学习算法主要研究智能体(agent)如何通过与环境交互,自主学习策略以实现回报最大化问题。随着深度神经网络的发展,强化学习与深度神经网络相结合产生的深度强化学习方法,能够充分利用深度神经网络良好的特征提取能力,提高强化学习在高维复杂环境下决策问题的能力,在模拟游戏、机器人控制、自然语言处理等领域取得优异的表现。然而,目前深度强化学习算法仍存在样本效率低的问题,如Atari游戏环境中,智能体需要进行数十年的样本量的训练才能达到人类水平,尤其是现实世界中,获取样本可能需要耗费巨大代价。样本效率低下这一问题,严重影响了强化学习解决实际问题。因此,本文主要在自监督学习的框架下,研究强化学习算法的样本效率问题。主要研究工作如下: 1.为充分利用强化学习训练过程中的环境信息,本文提出基于环境信息的自监督强化学习(Environment-basedSelf-supervisedReinforcementLearning,简记为ESRL)算法,以学习未来环境的特征表示和奖励作为辅助任务,通过自监督学习提取状态特征,预测未来状态与奖励,并使用强化学习算法进行动作选择以获得最大期望回报来学习最优策略。该算法能够充分利用环境内的状态、动作、奖励信息,不仅提高数据利用率,而且还能获得一个基于状态-动作对的奖励预测。在Atari游戏环境中进行的测试结果表明ESRL算法取得了优于其他算法的性能,与基准算法相比,本算法在16个实验游戏环境中有11个所获游戏分数高于基准算法,5个游戏环境所获游戏分数高于常见强化学习算法,在Frostbite和RoadRunner两个游戏环境中分别提高了32.3%和16.2%。 2.为在提高样本效率的同时加快智能体学习速度,本文提出基于情景记忆的自监督深度强化学习(EpisodicMemory-basedSelf-supervisedReinforcementLearning,EMRL)算法,在深度强化学习中引入非参数化方法(情景记忆控制),通过储存优秀历史经验,降低样本数据方差,并加速环境中回报信息的传播,帮助智能体快速学习到最优策略。EMRL算法在Atari游戏环境上的16个游戏上进行了实验验证,实验结果表明基于情景记忆的自监督强化学习算法能够有效提升样本效率与训练速度,在使用相同数据量样本进行训练时,所获得游戏分数高于基准算法,相比于基准算法ESRL,人类标准化分数的均值与中位数分别提高了6.2%和8%。 综上,本文从两个角度为自监督强化学习的样本效率研究提供了思路,在未来的工作中可以继续深入研究,进一步提升算法的样本效率与训练效率。