Safe reinforcement learning(SRL)constrained Markov decision process(CMDP)learning processlearning objectiveoffline reinforcement learning
安全强化学习 约束马尔科夫决策过程 学习过程 学习目标 离线强化学习
国家自然科学基金国家自然科学基金江苏省重点研发计划项目江苏省重点研发计划项目Key Research and Development Program of Jiangsu Province
62176259619762156217625961976215BE2022095
2023