基于内在动机的深度强化学习探索方法综述

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation:A Review

曾俊杰 ¹秦龙 ¹徐浩添 ¹张琪 ¹胡越 ¹尹全军¹

扫码查看

作者信息

1. 国防科技大学系统工程学院长沙 410073
折叠

摘要

近年来,深度强化学习(deep reinforcement learning,DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了 3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.

关键词

深度强化学习/探索/内在动机/内在奖励/启发式

Key words

deep reinforcement learning(DRL)/exploration/intrinsic motivation/intrinsic rewards/heuristic

引用本文复制引用

基金项目

国家自然科学基金(62103420)

国家自然科学基金(62103428)

国家自然科学基金(62306329)

湖南省自然科学基金(2021JJ40702)

湖南省自然科学基金(2023JJ40676)

出版年

2023

计算机研究与发展

中国科学院计算技术研究所中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心

影响因子：2.649

ISSN：1000-1239

被引量1

参考文献量5

段落导航