摘要
本文首先介绍了强化学习在无人遥控水下机器人(ROV)运动控制方面的研究现状,指出目前阻碍其进一步应用的共性难题,并对深度强化学习算法中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法的基本原理进行了阐述;然后针对DDPG算法应用于ROV运动控制时所存在的坏样本影响学习稳定性和缺少环境探索能力的问题,从神经网络结构和噪声引入两个方面对该算法进行了改进,提出了基于均值策略的混合式神经网络结构和引入参数空间噪声的方法;最后进行仿真实验,实验结果证明:本文改进型DDPG算法比常规的DDPG算法和传统的PID控制算法更加有效.