计算机研究与发展2023,Vol.60Issue(10) :2359-2382.DOI:10.7544/issn1000-1239.202220388

基于内在动机的深度强化学习探索方法综述

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation:A Review

曾俊杰 秦龙 徐浩添 张琪 胡越 尹全军
计算机研究与发展2023,Vol.60Issue(10) :2359-2382.DOI:10.7544/issn1000-1239.202220388

基于内在动机的深度强化学习探索方法综述

Exploration Approaches in Deep Reinforcement Learning Based on Intrinsic Motivation:A Review

曾俊杰 1秦龙 1徐浩添 1张琪 1胡越 1尹全军1
扫码查看

作者信息

  • 1. 国防科技大学系统工程学院 长沙 410073
  • 折叠

摘要

近年来,深度强化学习(deep reinforcement learning,DRL)在游戏人工智能、机器人等领域取得了诸多重要成就.然而,在具有稀疏奖励、随机噪声等特性的现实应用场景中,该类方法面临着状态动作空间探索困难的问题.基于内在动机的深度强化学习探索方法是解决上述问题的一种重要思想.首先解释了深度强化学习探索困难的问题内涵,介绍了 3种经典探索方法,并讨论了这3种方法在高维或连续场景下的局限性;接着描述了内在动机引入深度强化学习的背景和算法模型的常用测试环境,在此基础上详细梳理各类探索方法的基本原理、优势和缺陷,包括基于计数、基于知识和基于能力3类方法;然后介绍了基于内在动机的深度强化学习技术在不同领域的应用情况;最后总结亟需解决的难以构建有效状态表示等关键问题以及结合表示学习、知识积累等领域方向的研究展望.

关键词

深度强化学习/探索/内在动机/内在奖励/启发式

Key words

deep reinforcement learning(DRL)/exploration/intrinsic motivation/intrinsic rewards/heuristic

引用本文复制引用

基金项目

国家自然科学基金(62103420)

国家自然科学基金(62103428)

国家自然科学基金(62306329)

湖南省自然科学基金(2021JJ40702)

湖南省自然科学基金(2023JJ40676)

出版年

2023
计算机研究与发展
中国科学院计算技术研究所 中国计算机学会

计算机研究与发展

CSTPCDCSCD北大核心
影响因子:2.649
ISSN:1000-1239
被引量1
参考文献量5
段落导航相关论文