一种基于联合神经网络的连续空间行动者评论家学习方法

An Actor-Critic Learning Approach Based on Joint Neural Network in Continuous Space

杨金鸿 ¹谭斌 ¹皇甫立 ¹熊璋²

扫码查看

作者信息

1. 中国船舶工业系统工程研究院, 北京 100094
2. 北京航空航天大学计算机科学与技术学院, 北京 100192
折叠

摘要

在复杂的连续空间应用场景中,经典的离散空间强化学习方法已难以满足实际需要,而已有的连续空间强化学习方法主要采用线性拟合方法逼近状态值函数和动作选择函数,存在精度不高的问题.提出一种基于联合神经网络非线性行动者评论家方法(actor-critic approach based on union neural network,UNN-AC).该方法将动作选择函数和评论值函数表示为统一的联合神经网络模型,利用联合神经网络非线性拟合状态值函数和动作选择概率.与已有的线性拟合方法相比,非线性UNN-AC提高了对评论值函数和动作选择函数的拟合精度.实验结果表明,UNN-AC算法能够有效求解连续空间中近似最优策略问题.与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.

关键词

联合神经网络/连续空间/行动者评论家/非线性

Key words

joint neural network/continuous space/actor-critic/nonlinear

引用本文复制引用

出版年

2022

智能安全

军事科学院国防科技创新研究院

智能安全

ISSN：2097-2075

参考文献量3

段落导航