基于优化经验回放与内部奖励利用的深度强化学习稀疏奖励问题研究

董芮臣¹

扫码查看

作者信息

1. 四川大学
折叠

摘要

深度强化学习融合深度学习强大的表示能力与强化学习的决策能力，在视频游戏、棋类运动、多轮对话等可用模拟器进行训练的虚拟环境领域取得了显著进展。然而，由于智能体通过与环境交互过程中获得的奖励信号来学习，而现实环境反馈的奖励通常是稀疏的，因此稀疏奖励问题是导致深度强化学习落地困难的主要挑战之一。针对此问题，本文由提升样本利用效率和改进探索两个角度，进行深入研究，提出基于优先级经验回放与内部奖励的学习算法，主要贡献包括： (1)提出基于多经验池的距离优先级经验回放，引入距离优先级指标，将经验样本距离终止状态的时间步作为度量因素。通过改变样本的采样顺序，加快时序信用分配进程，从而改进样本的利用效率。此外，提出包含TD-error优先级经验池和距离优先级经验池的多经验池机制，将智能体在交互过程中成功完成目标后所生成的经验样本从TD-error优先级经验池转移到距离优先级经验池，既使距离优先级的计算更加平滑，又进一步通过转移过程中的样本筛选进一步提升样本的利用效率。在MiniGridFourRooms环境的实验表明，该算法收敛所需的交互步数相比基线算法减少近37.5%，在稀疏奖励环境中能进一步提高样本利用效率，从而加速智能体学习。 (2)提出基于信息差异的探索算法。内部奖励是根据智能体对环境状态的熟悉程度额外生成的奖励信号，本文使用随机网络蒸馏计算内部奖励，提出一种基于信息差异的探索算法。其基本思想是分离智能体对内部奖励和外部奖励的学习，使用基于未来信息差异的探索-利用平衡机制，有效利用内部奖励引导探索过程。提出基于softmax函数输出头的动作预测器对局内状态-动作对进行相对计数，解决内部奖励引起的循环状态问题，提升智能体的探索效率。在MiniGridApple环境的实验表明，该算法探索整个地图所需的交互步数相比基线算法减少近25%，并学得最优策略，在稀疏奖励环境中能进一步提高探索效率与探索广度，提升智能体的最终性能。尽管实验表明在OpenAIGymnasium的MiniGrid和Atari等环境中本文方法得到验证，但仍存诸多不足，未来可在多经验池的基础上进一步研究更加有效的样本筛选机制以进一步提升样本的利用效率。此外，本文所提的基于信息差异的探索方法将信息量视为智能体对未来状态集合的熟悉程度，因拟合Q值需大量训练，未来可进一步研究内部奖励转化为信息量的方式或是针对内部奖励的更快的Q值拟合方法。

关键词

深度强化学习/稀疏奖励/优化经验回放/内部奖励利用

引用本文复制引用

授予学位

硕士

学科专业

人工智能

导师

李川/胡爽

学位年度

2023

学位授予单位

四川大学

语种

中文

中图分类号

段落导航