安全强化学习综述

扫码查看

原文链接

国家科技期刊平台
NETL
NSTL
万方数据
维普

中文摘要：强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发安全强化学习(Safe reinforcement learning,SRL)算法,在确保系统性能的同时满足安全约束.本文对现有的安全强化学习算法进行全面综述,将其归为三类:修改学习过程、修改学习目标、离线强化学习,并介绍了 5 大基准测试平台:Safety Gym、safe-control-gym、SafeRL-Kit、D4RL、NeoRL.最后总结了安全强化学习在自动驾驶、机器人控制、工业过程控制、电力系统优化和医疗健康领域中的应用,并给出结论与展望.

外文标题：Safe Reinforcement Learning:A Survey

外文关键词：

Safe reinforcement learning(SRL)constrained Markov decision process(CMDP)learning processlearning objectiveoffline reinforcement learning

作者：

王雪松、王荣荣、程玉虎

展开 >

作者单位：

中国矿业大学信息与控制工程学院徐州 221116

关键词：

安全强化学习约束马尔科夫决策过程学习过程学习目标离线强化学习

基金：

国家自然科学基金国家自然科学基金江苏省重点研发计划项目江苏省重点研发计划项目Key Research and Development Program of Jiangsu Province

项目编号：

62176259619762156217625961976215BE2022095

出版年：

2023

DOI：

10.16383/j.aas.c220631

自动化学报

中国自动化学会中国科学院自动化研究所

自动化学报

CSTPCDCSCD北大核心

影响因子：1.762

ISSN：0254-4156

年,卷(期)：2023.49(9)

被引量6
参考文献量8