摘要
提出一种基于深度强化学习的运动规划方法,以车辆位姿、方向盘转角和与障碍物的最小距离作为状态,以目标方向盘转角作为动作,通过Pytorch搭建了基于深度强化学习的泊车算法框架.设计基于引导的奖励函数以避免奖励稀疏问题;以回合平均奖励作为优先级,将经验池改进为基于优先队列对样本进行存储和淘汰;针对泊车问题,提出了基于课程学习的分阶段训练方法,加速算法收敛.仿真结果表明:提出的算法较原始算法收敛速度提高25%,完成训练的智能体具有较强的规划能力和健壮性,规划成功率达到90.6%,同时具有良好的舒适性和安全性.